Regresi Univariat: how to

Pertemuan 11

Matematika & Statistika

Hari ini

  • Regresi univariat

Korelasi

  • Pada uji hipotesis, kita mencoba menebak apakah sampel yang kita miliki telah sesuai dengan pembandingnya:

    • dibandingkan dengan sebuah angka -> uji hipotesis 1 populasi.

    • dibandingkan dengan sampel lain -> uji hipotesis 2 populasi.

  • Pada perhitungan korelasi, kita mendapatkan informasi tentang hubungan 2 variabel, Y dan X.

  • Regresi menggunakan 2 prinsip di atas untuk mencari perubahan marjinal dari Y dan X.

Regresi

  • Kali ini kita coba plot data jam belajar vs nilai UTS, tapi datanya ada 70 observasi (n=70).

  • Dapat dilihat ada pattern di data tersebut, di mana X dan Y memiliki korelasi positif.

  • Jika terdapat korelasi linear, kita dapat membuat garis lurus yang mewakili kurang lebih korelasi tersebut. (lihat garis biru)

  • Bagaimana cara membuatnya?

Regresi

  • Garis biru tersebut dibuat sedemikian sehingga ia meminimalisir jarak vertikal antara setiap titik observasi dengan si garis biru.
  • misalnya, lihat X=15, ada 4 titik berbeda, yaitu 64,65,68, dan 69.
  • garis biru bertemu X=15 di Y=69.
  • Jarak setiap titik terhadap Y=69 adalah [-5,-4,-1,0]
  • Lakukan untuk semua titik, maka garis biru akan memberikan jumlah perbedaan terkecil dibanding posisi lain.

Ordinary Least Square

  • Ada yang ingat rumus untuk membuat sebuah garis linear di diagram kartesian?

\[ \hat{Y}=\beta_0+\beta_1 X \]

  • \(\hat{Y}\) adalah \(Y\) yang didapatkan dari persamaan tersebut.

  • \(\beta_0\) adalah titik awal, atau \(Y\) ketika \(X=0\), disebut juga konstanta.

  • \(\beta_1\) menunjukkan kemiringan garis. Disebut juga dengan gradien.

OLS

  • Perbedaan vertikal antara garis biru dengan setiap observasi adalah:

\[ \varepsilon=Y-\hat{Y} \]

di mana \(Y\) adalah \(Y\) yang kita dapat dari data. si \(\varepsilon\) inilah yang diminimalisir.

  • Untuk melakukan minimalisasi, kita memanfaatkan First Order Condition di mana untuk beberapa fungsi \(f(x)\), kita dapat menemukan titik optimal di mana \(f'(x)=0\)

OLS

  • karena \(\varepsilon\) bisa jadi negatif, kita kuadratkan dulu lalu ditambahkan, sehingga:

\[ \min_{\beta_0,\beta_1} \sum_i \left(Y_i-\beta_0-\beta_1 X_i \right)^2 \]

  • kita mencari \(\beta_0\) dan \(\beta_1\) di mana \(\frac{\partial}{\partial \beta_0}=0\) dan \(\frac{\partial}{\partial \beta_1}=0\)

  • Dengan kata lain, kita buat dulu persamaannya baru kita cari parameter garisnya dulu.

  • Metode ini disebut Ordinary Least Square (OLS) / metode kuadrat terkecil.

OLS

  • Kita tidak perlu melakukan penurunan rumus dari slide sebelumnya.

  • Sudah ada rumus yg siap pakai, yaitu:

\[ \beta_0=\frac{\sum Y \sum X^2-\sum X \sum XY}{n\sum X^2-(\sum X)^2} \] dan \[ \beta_1=\frac{n\sum XY - \sum X \sum Y}{n \sum X^2-(\sum X)^2} \]

Rumus lain

  • setelah mendapatkan kedua parameter kita, kita dapat menggambar garis kita:

\[ \hat{Y}=\beta_0+\beta_1 X \]

  • Dan dapat menghitung error \(\varepsilon=Y-\hat{Y}\)

  • Sehingga rumus regresi utuhnya adalah:

\[ Y=\beta_0+\beta_1 X + \varepsilon \]

Regresi univariat

\[ Y_i=\beta_0+\beta_1 X_i+\varepsilon_i \]

  • Y disebut juga variabel dependen

  • X disebut juga variabel independen

  • nilai Y dan X kita dapatkan dari data

  • \(\varepsilon\) disebut juga error term / residual. Dia bersifat independen

  • \(\beta_1\) disebut juga dengan marginal effect. Ada yang ingat turunan?

Marginal effect

  • pada dasarnya, \(\beta_1=\frac{dY}{dX}\). Apa artinya?

  • Untuk kenaikan \(X\) sebesar 1 satuan, Y naik sebesar \(\beta_1\)

  • Jika kita gunakan konteks kita, bagaimana menerjemahkan \(\beta_1\) ?

  • Jika jam belajar bertambah 1 jam/minggu, nilai UTS naik sebesar \(\beta_1\)

Ramalan

  • Disamping itu, kita dapat meramal \(Y\) jika tau \(X\). Jika saya belajar 13 jam, berapa ekspektasi nilai UTS saya?

  • \(\hat{Y}=\beta_0+\beta_1 \times 13\)

  • \(Y\) aslinya belum tentu sama dengan \(\hat{Y}\), tapi walaupun beda, harusnya tidak terlalu jauh.

  • Semakin besar korelasinya, semakin bagus ramalannya.

Video regresi excel

Minggu depan

  • Syarat menggunakan regresi

  • analisis pola error