Metodologi penelitian

Pertemuan 2

Prodi PIWAR Politeknik APP Jakarta

Hari ini ☀️

  • OLS dan karakteristiknya

OLS

  • kita sudah bahas bahwa OLS merupakan metode yang menjelaskan hubungan dua variabel \(X\) dan \(Y\).
  • persamaan sederhananya adalah:

\[ Y_i=\beta_0+\beta_1 X_i + \mu_i \]

ada 2 part dari persamaan di atas: yaitu parameter dari X dan error.

OLS

  • OLS mencari parameter sedemikian sehingga errornya minim.

\[ \mu_i = Y_i - \hat{Y_i} \] di mana \(\hat{Y_i}=\beta_0+\beta_1 X_i\), atau Y yang diprediksi oleh model.

Mencari beta

\[ \min_{\beta_0,\beta_1} \left(Y_i-\beta_0-\beta_1X_i\right)^2 \] - error dikuadratkan dulu supaya negatifnya jadi positif. - kemudian dilakukan optimisasi dengan ngeset:

\(\frac{\partial}{\partial \beta_0}=0\) and \(\frac{\partial}{\partial \beta_1}=0\)

Prinsipnya sama seperti cari titik minimum parabola.

Mencari beta

  • hasilnya adalah sebuah persamaan garis lurus yang dibuat sedemikian sehingga dia meminimalisir jarak antar titik
  • Dengan kata lain, OLS merupakan cara untuk mendapatkan garis lurus yang paling fit dengan observasinya.

Tentang statistik

  • OLS tidak beda dari statistik lain, dalam artian, pada prinsipnya dia adalah tebak-tebakan berbasis data.
  • Kita tidak bisa menebak sesuatu dengan ketepatan 100%.
  • Tapi kita bisa membuat perkiraan rentang tebakan kita, yang paling tidak punya kemungkinan benar yang cukup tinggi.
  • Meleset dikit gak papa yang penting berguna.

BLUE

  • Parameter dari OLS memiliki karakteristik yang disebut juga dengan BLUE, atau Best, Linear, Unbiased Estimators.
  • linear cukup jelas, karena dari persamaannya aja udah linear.
  • Best artinya efisien, artinya bahwa parameter OLS memiliki standar deviasi yang kecil, atau rentang estimasinya kecil.
  • Unbiased artinya parameter OLS akan mendapatkan parameter yang mendekati aslinya.

sasaran

  • ada dua pemanah, plus merah dan lingkarang hitam.
  • Jika anda harus memilih 1 untuk kompetisi, pilih yang mana?
  • plus merah: bias namun efisien.
  • titik hitam: unbiased but not efficient.

Key assumption

  • \(X\)-nya independen, khususnya terhadap \(\mu_i\). alias \(cov(X_i,,\mu_i)=0\)
    • by extension, errornya juga harus random.
  • nilai ekspektasi dari errornya adalah 0, atau \(E[\mu_i|x_i]=0\), atau conditional zero mean
  • homoskedastis, atau variasi error-nya konstan, atau \(var(\mu_i)=\sigma^2\)

Tanpa ini semua, parameter OLS tidak lagi BLUE.

Key assumption

  • Key assumptions ini sangat penting untuk dipahami.
  • Sebagus apapun hasil regresinya, namun apabila key assumptions ini terlanggar, maka hasilnya bisa misleading.
  • Hasil yang misleading ini sangat berbahaya jika menjadi sebuah kebijakan, baik kebijakan publik maupun kebijakan perusahaan.
  • Yang penting anda paham keterbatasan teknik yang anda gunakan.

Independensi X

  • Independen berarti tidak dipengaruhi oleh hal lain.
  • Jika kita yakin X ini independen, maka kita bisa klaim hubungan kausal \(X \rightarrow Y\) dan bukan \(Y \rightarrow X\).
  • Biasanya arah hubungan tersebut dapat kita bangun dengan teori/hipotesis.

Independensi X

  • Independen berarti X-nya bisa kita ubah-ubah sesuka kita.
  • Apakah karena kita belajar maka nilai kita bagus, atau karena nilai kita bagus makanya kita jadi rajin belajar?
    • Belajar itu terserah kita, tapi nilai terserah dosen (tidak bisa diubah sesuka kita)
  • Di dunia nyata, sering kali hubungan sebab-akibat \(X\) dan \(Y\) ga jelas.
    • reverse causality: ketika hubungan \(X\) dan \(Y\) ketuker.
    • unhealthy eating vs depresi, merokok dan konsumsi.

Independensi X

  • spurious : ketika hubungan \(X\) dan \(Y\) cuma kebetulan.
    • Pertumbuhan PDB vs panjang rumput.
  • Ada teknik lanjutan OLS yang namanya causal inference
  • tapi jika pakai OLS biasa, sebaiknya hindari klaim causality

correlation does not imply causation

tentang error

  • OLS mewajibkan error/residual yang juga independen.
    • error ga boleh berkorelasi dengan X maupun Y
  • error harus punya rata-rata==0 (zero mean condition)
  • error harus punya variance yang konstan (tidak tambah lebar/tambah kecil distribusinya).
  • contoh kemarin, X dan Y yang bagus adalah yang ada polanya. Error yang bagus adalah yang gak ada polanya.

Kenapa error harus random?

  • error harusnya hanya menangkap hal-hal yang sifatnya random.
  • X tidak akan pernah bisa 100% memprediksi Y
    • akan ada variasi-variasi kecil.
    • setiap individu tidak 100% sama.
    • yang penting variasi-variasi ini sifatnya random.

Bentuk error yang baik

Contoh error yang jelek

error yang punya pola terhadap X

error yang heteroskedastik

Kesalahan error

  • error yang berpola adalah permasalahan yang paling fatal.
    • artinya, estimasi kita akan bias, karena ada pola yang ada di error yang tidak ditangkap oleh X.
  • error yang heteroskedastik masih ga papa karena masih unbiased.
    • meski demikian, heteroskedastik mengurangi ke-“best”-an dari estimator kita.
  • Tapi standar deviasi yang agak lebar masih mending daripada estimasi yang bias.

Contoh

  • Mari kita coba regresi dengan microsoft excel
  • Kita mau cek hubungan antara jam belajar dengan nilai UAS
    • \(X=\) jumlah jam belajar dalam seminggu
    • \(Y=\) nilai UAS
  • Kita akan regresi, hitung \(\hat{Y}\), dan plot error.
  • Datanya bisa didownload di sini

Summary

  • OLS: simple (linear) dan powerful (best & unbiased)
  • Asumsinya sangat kuat:
    • independensi X dan \(\mu\)
    • rata-rata error = 0
    • homoskedastis

Regresi multivariat

  • Seringkali \(Y\) dapat dijelaskan oleh lebih dari 1 \(X\).

\[ Y=\beta_0+\beta_1 X_1+\beta_2 X_2 +...+\beta_jX_j+\mu \] - Ini disebut juga dengan regresi multivariat.

  • Problemnya regresi ini jadi susah digambar dalam 2 dimensi.

  • Jarang ada penelitian yang hanya menggunakan 1 jenis variabel saja.

Omitted variable bias

  • Jika seandainya aslinya \(Y=\beta_0+\beta_1X_1+\beta_2X_2=\mu\)
  • kita regressnya \(Y=\beta_0+\beta_1X_1+\varepsilon\)
  • Artinya, aslinya ada \(X_2\) yang ngaruh, tapi nggak kita masukan ke model regresi.
  • akibatnya variasi yang harusnya bisa dijelaskan \(X_2\) jadi masuk ke \(\varepsilon\)
  • dan artinya \(\varepsilon\) akan punya pola.

Omitted variable bias

  • Jika errornya punya pola, artinya ada variabel yang mestinya ngefek tapi tidak kita masukan ke regresi.
  • beta kita (si \(\beta_1\)) akan jadi bias.
  • Karena itu, omitted variable bias adalah problem yang cukup serius.
  • usahakan kita sudah menggunakan semua variabel yang ngaruh ke Y menurut teori.

Minggu depan

  • Multivariat & binary
  • membaca tabel regresi
  • growth vs level
  • logarithmic transformation