Metodologi penelitian
Pertemuan 2
Prodi PIWAR Politeknik APP Jakarta
OLS
- kita sudah bahas bahwa OLS merupakan metode yang menjelaskan hubungan dua variabel \(X\) dan \(Y\).
- persamaan sederhananya adalah:
\[
Y_i=\beta_0+\beta_1 X_i + \mu_i
\]
ada 2 part dari persamaan di atas: yaitu parameter dari X dan error.
OLS
- OLS mencari parameter sedemikian sehingga errornya minim.
\[
\mu_i = Y_i - \hat{Y_i}
\] di mana \(\hat{Y_i}=\beta_0+\beta_1 X_i\), atau Y yang diprediksi oleh model.
Mencari beta
\[
\min_{\beta_0,\beta_1} \left(Y_i-\beta_0-\beta_1X_i\right)^2
\] - error dikuadratkan dulu supaya negatifnya jadi positif. - kemudian dilakukan optimisasi dengan ngeset:
\(\frac{\partial}{\partial \beta_0}=0\) and \(\frac{\partial}{\partial \beta_1}=0\)
Prinsipnya sama seperti cari titik minimum parabola.
Mencari beta
- hasilnya adalah sebuah persamaan garis lurus yang dibuat sedemikian sehingga dia meminimalisir jarak antar titik
- Dengan kata lain, OLS merupakan cara untuk mendapatkan garis lurus yang paling fit dengan observasinya.
Tentang statistik
- OLS tidak beda dari statistik lain, dalam artian, pada prinsipnya dia adalah tebak-tebakan berbasis data.
- Kita tidak bisa menebak sesuatu dengan ketepatan 100%.
- Tapi kita bisa membuat perkiraan rentang tebakan kita, yang paling tidak punya kemungkinan benar yang cukup tinggi.
- Meleset dikit gak papa yang penting berguna.
BLUE
- Parameter dari OLS memiliki karakteristik yang disebut juga dengan BLUE, atau Best, Linear, Unbiased Estimators.
- linear cukup jelas, karena dari persamaannya aja udah linear.
- Best artinya efisien, artinya bahwa parameter OLS memiliki standar deviasi yang kecil, atau rentang estimasinya kecil.
- Unbiased artinya parameter OLS akan mendapatkan parameter yang mendekati aslinya.
- ada dua pemanah, plus merah dan lingkarang hitam.
- Jika anda harus memilih 1 untuk kompetisi, pilih yang mana?
- plus merah: bias namun efisien.
- titik hitam: unbiased but not efficient.
Key assumption
- \(X\)-nya independen, khususnya terhadap \(\mu_i\). alias \(cov(X_i,,\mu_i)=0\)
- by extension, errornya juga harus random.
- nilai ekspektasi dari errornya adalah 0, atau \(E[\mu_i|x_i]=0\), atau conditional zero mean
- homoskedastis, atau variasi error-nya konstan, atau \(var(\mu_i)=\sigma^2\)
Tanpa ini semua, parameter OLS tidak lagi BLUE.
Key assumption
- Key assumptions ini sangat penting untuk dipahami.
- Sebagus apapun hasil regresinya, namun apabila key assumptions ini terlanggar, maka hasilnya bisa misleading.
- Hasil yang misleading ini sangat berbahaya jika menjadi sebuah kebijakan, baik kebijakan publik maupun kebijakan perusahaan.
- Yang penting anda paham keterbatasan teknik yang anda gunakan.
Independensi X
- Independen berarti tidak dipengaruhi oleh hal lain.
- Jika kita yakin X ini independen, maka kita bisa klaim hubungan kausal \(X \rightarrow Y\) dan bukan \(Y \rightarrow X\).
- Biasanya arah hubungan tersebut dapat kita bangun dengan teori/hipotesis.
Independensi X
- Independen berarti X-nya bisa kita ubah-ubah sesuka kita.
- Apakah karena kita belajar maka nilai kita bagus, atau karena nilai kita bagus makanya kita jadi rajin belajar?
- Belajar itu terserah kita, tapi nilai terserah dosen (tidak bisa diubah sesuka kita)
- Di dunia nyata, sering kali hubungan sebab-akibat \(X\) dan \(Y\) ga jelas.
- reverse causality: ketika hubungan \(X\) dan \(Y\) ketuker.
- unhealthy eating vs depresi, merokok dan konsumsi.
Independensi X
- spurious : ketika hubungan \(X\) dan \(Y\) cuma kebetulan.
- Pertumbuhan PDB vs panjang rumput.
- Ada teknik lanjutan OLS yang namanya causal inference
- tapi jika pakai OLS biasa, sebaiknya hindari klaim causality
correlation does not imply causation
tentang error
- OLS mewajibkan error/residual yang juga independen.
- error ga boleh berkorelasi dengan X maupun Y
- error harus punya rata-rata==0 (zero mean condition)
- error harus punya variance yang konstan (tidak tambah lebar/tambah kecil distribusinya).
- contoh kemarin, X dan Y yang bagus adalah yang ada polanya. Error yang bagus adalah yang gak ada polanya.
Kenapa error harus random?
- error harusnya hanya menangkap hal-hal yang sifatnya random.
- X tidak akan pernah bisa 100% memprediksi Y
- akan ada variasi-variasi kecil.
- setiap individu tidak 100% sama.
- yang penting variasi-variasi ini sifatnya random.
Bentuk error yang baik
Kesalahan error
- error yang berpola adalah permasalahan yang paling fatal.
- artinya, estimasi kita akan bias, karena ada pola yang ada di error yang tidak ditangkap oleh X.
- error yang heteroskedastik masih ga papa karena masih unbiased.
- meski demikian, heteroskedastik mengurangi ke-“best”-an dari estimator kita.
- Tapi standar deviasi yang agak lebar masih mending daripada estimasi yang bias.
Contoh
- Mari kita coba regresi dengan microsoft excel
- Kita mau cek hubungan antara jam belajar dengan nilai UAS
- \(X=\) jumlah jam belajar dalam seminggu
- \(Y=\) nilai UAS
- Kita akan regresi, hitung \(\hat{Y}\), dan plot error.
- Datanya bisa didownload di sini
Summary
- OLS: simple (linear) dan powerful (best & unbiased)
- Asumsinya sangat kuat:
- independensi X dan \(\mu\)
- rata-rata error = 0
- homoskedastis
Regresi multivariat
- Seringkali \(Y\) dapat dijelaskan oleh lebih dari 1 \(X\).
\[
Y=\beta_0+\beta_1 X_1+\beta_2 X_2 +...+\beta_jX_j+\mu
\] - Ini disebut juga dengan regresi multivariat.
Omitted variable bias
- Jika seandainya aslinya \(Y=\beta_0+\beta_1X_1+\beta_2X_2=\mu\)
- kita regressnya \(Y=\beta_0+\beta_1X_1+\varepsilon\)
- Artinya, aslinya ada \(X_2\) yang ngaruh, tapi nggak kita masukan ke model regresi.
- akibatnya variasi yang harusnya bisa dijelaskan \(X_2\) jadi masuk ke \(\varepsilon\)
- dan artinya \(\varepsilon\) akan punya pola.
Omitted variable bias
- Jika errornya punya pola, artinya ada variabel yang mestinya ngefek tapi tidak kita masukan ke regresi.
- beta kita (si \(\beta_1\)) akan jadi bias.
- Karena itu, omitted variable bias adalah problem yang cukup serius.
- usahakan kita sudah menggunakan semua variabel yang ngaruh ke Y menurut teori.
Minggu depan
- Multivariat & binary
- membaca tabel regresi
- growth vs level
- logarithmic transformation