Pertemuan 11
Pada uji hipotesis, kita mencoba menebak apakah sampel yang kita miliki telah sesuai dengan pembandingnya:
dibandingkan dengan sebuah angka -> uji hipotesis 1 populasi.
dibandingkan dengan sampel lain -> uji hipotesis 2 populasi.
Pada perhitungan korelasi, kita mendapatkan informasi tentang hubungan 2 variabel, Y dan X.
Regresi menggunakan 2 prinsip di atas untuk mencari perubahan marjinal dari Y dan X.
Kali ini kita coba plot data jam belajar vs nilai UTS, tapi datanya ada 70 observasi (n=70).
Dapat dilihat ada pattern di data tersebut, di mana X dan Y memiliki korelasi positif.
Jika terdapat korelasi linear, kita dapat membuat garis lurus yang mewakili kurang lebih korelasi tersebut. (lihat garis biru)
Bagaimana cara membuatnya?
\[ \hat{Y}=\beta_0+\beta_1 X \]
\(\hat{Y}\) adalah \(Y\) yang didapatkan dari persamaan tersebut.
\(\beta_0\) adalah titik awal, atau \(Y\) ketika \(X=0\), disebut juga konstanta.
\(\beta_1\) menunjukkan kemiringan garis. Disebut juga dengan gradien.
\[ \varepsilon=Y-\hat{Y} \]
di mana \(Y\) adalah \(Y\) yang kita dapat dari data. si \(\varepsilon\) inilah yang diminimalisir.
\[ \min_{\beta_0,\beta_1} \sum_i \left(Y_i-\beta_0-\beta_1 X_i \right)^2 \]
kita mencari \(\beta_0\) dan \(\beta_1\) di mana \(\frac{\partial}{\partial \beta_0}=0\) dan \(\frac{\partial}{\partial \beta_1}=0\)
Dengan kata lain, kita buat dulu persamaannya baru kita cari parameter garisnya dulu.
Metode ini disebut Ordinary Least Square (OLS) / metode kuadrat terkecil.
Kita tidak perlu melakukan penurunan rumus dari slide sebelumnya.
Sudah ada rumus yg siap pakai, yaitu:
\[ \beta_0=\frac{\sum Y \sum X^2-\sum X \sum XY}{n\sum X^2-(\sum X)^2} \] dan \[ \beta_1=\frac{n\sum XY - \sum X \sum Y}{n \sum X^2-(\sum X)^2} \]
\[ \hat{Y}=\beta_0+\beta_1 X \]
Dan dapat menghitung error \(\varepsilon=Y-\hat{Y}\)
Sehingga rumus regresi utuhnya adalah:
\[ Y=\beta_0+\beta_1 X + \varepsilon \]
\[ Y_i=\beta_0+\beta_1 X_i+\varepsilon_i \]
Y disebut juga variabel dependen
X disebut juga variabel independen
nilai Y dan X kita dapatkan dari data
\(\varepsilon\) disebut juga error term / residual. Dia bersifat independen
\(\beta_1\) disebut juga dengan marginal effect. Ada yang ingat turunan?
pada dasarnya, \(\beta_1=\frac{dY}{dX}\). Apa artinya?
Untuk kenaikan \(X\) sebesar 1 satuan, Y naik sebesar \(\beta_1\)
Jika kita gunakan konteks kita, bagaimana menerjemahkan \(\beta_1\) ?
Jika jam belajar bertambah 1 jam/minggu, nilai UTS naik sebesar \(\beta_1\)
Disamping itu, kita dapat meramal \(Y\) jika tau \(X\). Jika saya belajar 13 jam, berapa ekspektasi nilai UTS saya?
\(\hat{Y}=\beta_0+\beta_1 \times 13\)
\(Y\) aslinya belum tentu sama dengan \(\hat{Y}\), tapi walaupun beda, harusnya tidak terlalu jauh.
Semakin besar korelasinya, semakin bagus ramalannya.
Syarat menggunakan regresi
analisis pola error