Pertemuan 10
Korelasi
Pengantar regresi
Pada uji hipotesis, kita mencoba menebak apakah sampel yang kita miliki telah sesuai dengan pembandingnya:
dibandingkan dengan sebuah angka -> uji hipotesis 1 populasi.
dibandingkan dengan sampel lain -> uji hipotesis 2 populasi.
Kadang-kadang pertanyaan yang kita punya adalah seberapa kuat hubungan antar 2 variabel.
Misalnya, apakah PDB terkait dengan tingkat harga? Apakah PDB China beriringan dengan ekspor Indonesia? Apakah jam belajar berpotensi menyebabkan nilai yang tinggi?
Pertanyaan-pertanyaan seperti ini intinya mencoba menjawab seberapa kuat hubungan \(Y\) dan \(X\).
Korelasi memiliki nilai 0-1: 0=tidak ada hubungan, 1=hubungan sempurna.
Hari ini kita menghitung korelasi variabel kuantitatif dan korelasi variabel kualitatif.
Misalnya kita ingin tau apakah kemampuan bahasa inggris seorang pegawai punya korelasi dengan asal kampusnya. Kita memiliki data seperti berikut.
Kurang | Cukup | Lancar | |
---|---|---|---|
Kampus A | 82 | 65 | 12 |
Kampus B | 59 | 112 | 24 |
Kampus C | 37 | 94 | 42 |
Kedua variabel (asal kampus dan kemampuan bahasa inggris) berisi data kualitatif. Angka tersebut adalah jumlah pegawai.
\(f_{ij}\) | Kurang | Cukup | Lancar | Total |
---|---|---|---|---|
Kampus A | 82 | 65 | 12 | \(n_{1.}=159\) |
Kampus B | 59 | 112 | 24 | \(n_{2.}=195\) |
Kampus C | 37 | 94 | 42 | \(n_{3.}=173\) |
Total | \(n_{.1}=178\) | \(n_{.2}=271\) | \(n_{.1}=78\) | \(n=527\) |
\[ \chi^2=\sum_{i=1}^{p} \sum_{j=1}^{q} \frac{(f_{ij}-e_{ij})^2}{e_{ij}} \] \(i=\) variabel baris, \(j=\) variabel kolom. \(f_{ij}\) adalah angka di baris \(i\) & kolom \(j\)
\(e_{ij}=\frac{n_{i.}\times n_{.j}}{n}=\) expected frequency.
\(e_{ij}\) | Kurang | Cukup | Lancar | Total |
---|---|---|---|---|
Kampus A | 53,70 | 81,76 | 23,53 | \(n_{1.}=159\) |
Kampus B | 65,86 | 100,28 | 28,86 | \(n_{2.}=195\) |
Kampus C | 58,43 | 88,96 | 25,61 | \(n_{3.}=173\) |
Total | \(n_{.1}=178\) | \(n_{.2}=271\) | \(n_{.1}=78\) | \(n=527\) |
\[ e_{11}=\frac{159 \times 178}{527} \ ; \ e_{12}=\frac{159 \times 271}{527} \ ; \ e_{12}=\frac{159 \times 78}{527} \\ e_{21}=\frac{195 \times 178}{527} \ ; \ e_{22}=\frac{195 \times 271}{527} \ ; \ e_{23}=\frac{195 \times 78}{527} \\ e_{31}=\frac{173 \times 178}{527} \ ; \ e_{32}=\frac{173 \times 271}{527} \ ; \ e_{33}=\frac{173 \times 78}{527} \]
\[ \chi^2=\sum_{i=1}^{p} \sum_{j=1}^{q} \frac{(f_{ij}-e_{ij})^2}{e_{ij}} \\ \chi^2=\frac{28,30^2}{53,70}+\frac{(-16,76)^2}{81,76}+\frac{(-11.53)^2}{23,53} \\ +\frac{(-6,86)^2}{65,86}+\frac{11,72^2}{100,28}+\frac{(-4,86)^2}{28,86} \\ +\frac{(-21,43)^2}{58,43}+\frac{5,04^2}{88,96}+\frac{16,39^2}{25,61} \]
\[ \chi^2=45,54 \]
Next, hitung \(C_c=\sqrt{\frac{\chi^2}{\chi^2+n}}\)
\[ C_c+\sqrt{\frac{45,54}{45,54+527}}=0,28 \]
Kemudian, hitung \(C_{max}=\sqrt{\frac{v-1}{v}}\) di mana \(v=\)jumlah kolom/baris, mana yang paling kecil.
\[ C_{max}=\sqrt{\frac{3-1}{3}}=0,82 \]
Terakhir, korelasi \(C=\frac{C_C}{C_{max}}\)
\[ C=\frac{0,28}{0,82}=0,34 \]
Kita dapat katakan bahwa korelasi antara asal kampus dan kemampuan bahasa inggris = 0,34. Artinya korelasinya sangat kecil.
Biasanya kalau kita sebut “korelasi”, kita langsung berpikir ke korelasi kuantitatif.
Untuk korelasi kuantitatif, kita memiliki dua variabel \(X\) dan \(Y\) yang bernilai kuantitatif.
\[ r=\frac{n\sum_{i=1}^{n}X_iY_i-\sum_{i=1}^{n}X_i\sum_{i=1}^{n}Y_i}{\sqrt{n\sum_{i=1}^{n}X_i^2-\left(\sum_{i=1}^{n}X_i\right)^2} \sqrt{n\sum_{i=1}^{n}Y_i^2-\left(\sum_{i=1}^{n}Y_i\right)^2}} \]
Anda membutuhkan beberapa kolom tambahan, antara lain \(X^2\), \(Y^2\) dan \(XY\)
Katakanlah seorang mahasiswa ingin tau apakah nilai UTS berhubungan dengan jumlah jam belajar dalam seminggu.
Datanya dapat didownload di sini
Data yang ingin kita cari korelasinya dapat kita coba analisis sederhana dengan menggunakan scatterplot
scatterplot adalah grafik yang menunjukkan dua data kita di dua sumbu berbeda.
Jika \(X=\)jam belajar dan \(Y=\)nilai UTS, maka kita pasang X di sumbu X dan Y di sumbu Y dari grafik kita.
Coba gunakan excel untuk menggambarkan grafik kita sebelumnya.
Jika melihat gambarnya, kita dapat lihat seperti ada pola.
Tidak hanya keduanya berkorelasi, namun juga terlihat bahwa korelasinya positif: semakin tinggi jam belajar, semakin tinggi juga nilai UTS.
Korelasi positif adalah korelasi di mana \(X\) dan \(Y\) terlihat bergerak searah.
Korelasi negatif adalah korelasi di mana \(X\) dan \(Y\) terlihat bergerak berlawanan arah.
Dapatkah anda memberi contoh korelasi positif dan korelasi negatif?
Jika kita berhasil membuat sebuah fungsi dari pola tersebut, kita bisa menebak dengan lebih akurat \(Y\) jika kita mengetahui \(X\), atau sebaliknya:
Jika anda belajar \(X\) jam, anda bisa tebak akan dapat UTS berapa
Sebaliknya: Jika anda ingin dapat UTS sebesar \(Y\), anda bisa kira-kira harus belajar berapa jam.
Teknik ini disebut dengan regresi, dan akan kita pelajari minggu depan.