Dapat dilihat bahwwa regresi di level memberikan kita residual yang sangat heteroskedastis.
Residual di regresi yang dilog jauh lebih smooth dan heteroskedastisnya berkurang.
Namun untuk keduanya tampak masih ada pola dengan Y. Artinya regresi kita masih punya kemungkinan bias.
Membaca tabel regresi
Call:
lm(formula = export ~ pdb + jarak + fta, data = dat)
Residuals:
Min 1Q Median 3Q Max
-4.569e+09 -4.400e+07 6.266e+07 2.303e+08 7.658e+09
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.416e+08 2.818e+08 0.857 0.393
pdb 1.558e-03 8.133e-05 19.151 <2e-16 ***
jarak -3.435e+04 2.423e+04 -1.418 0.158
fta 4.463e+09 4.443e+08 10.043 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.234e+09 on 158 degrees of freedom
Multiple R-squared: 0.8347, Adjusted R-squared: 0.8315
F-statistic: 265.9 on 3 and 158 DF, p-value: < 2.2e-16
Membaca tabel regresi
estimate=koefisien \(\beta\).
std.error=rentang. makin kecil makin bagus.
t-value menunjukkan signifikansi. Makin besar makin bagus. Biasanya setidaknya >2.
Pr(>|t|) disebut juga P-value. makin kecil makin bagus.
Membaca tabel regresi
Bintang menunjukkan level signifikansi.
***: signifikan di level 0,1%
**: signifikan di level 1%
*: signifikan di level 5%
.:signifikan di level 10%
Adjusted R-squared menunjukkan ‘goodness of fit’. semakin dekat ke 1 semakin baik, biasanya.
linear atau log?
Kalau lihat adjusted R-squared, kita bisa lihat bahwa regresi lin-lin memberikan nilai yang lebih besar.
Tapi error-nya lebih berantakan, dan jarak menjadi tidak signifikan.
Bagaimana memilih modelnya?
Biasanya kita tetap memilih yang log-log, terutama karena kita lihat error-nya.
Gravity yang kompleks
Di dunia nyata, riset dengan gravity model punya spesifikasi lebih ribet.
Persamaan bahasa, politik, hubungan kolonial, dan lain sebagainya juga ngaruh.
Di samping itu, ada tarif dan non-tarif barier yang harus juga diperhitungkan.
Tapi untuk sekarang segini aja dulu.
Time series
Di perdagangan internasional, kita akan bergelut dengan berbagai data yang sifatnya time series.
Time series adalah data yang punya urutan berdasarkan waktu: PDB sekarang terjadi setelah PDB tahun lalu, dan PDB tahun lalu terjadi setelah PDB 2 tahun lalu.
Biasanya kita punya 1 variabel yang kita ikuti di waktu-waktu yang berbeda.
Hal ini tidak seperti cross section, di mana tidak ada urutan pada observasi: Indonesia, Malaysia, Thailand, Singapura adalah cross section karena tidak ada urutannya.
Notice anything?
Some noticeable things
Bulan Juli 2016, ekspor turun drastis.
Tahun berikutnya, bulan yang sama turun, tapi semakin maju tahunnya, drop ekspor semakin dekat ke bulan maret.
Setelah bulan Maret 2021, tiba-tiba ekspor Indonesia naik tajam.
Februari 2022 turun tajam. Ada apa?
Time series
Trend: Long-run increase or decrease in the data. Contoh: data PDB long-term.
Seasonal: Jika ada faktor musiman di data kita. Misalnya lebaran, tahun baru China, atau liburan anak sekolah.
Cyclical: Ada tren naik turun: setelah turun, lalu naik, lalu nanti turun lagi, lalu naik lagi. Frekuensinya tidak tetap seperti seasonal. Contoh: Data short-term saham atau PDB.
Semua ini dapat dilihat dengan mata.
Contoh Trend
Contoh cyclic
Sumber: Trading Economics
Autocorrelation
Data time series punya kecenderungan memiliki keterkaitan dengan waktu sebelumnya.
PDB tahun ini tidak akan jauh beda dari PDB tahun lalu, kecuali ada shock
Data lain juga serupa: ekspor, impor, nilai mata uang, harga saham, dan lain sebagainya.
Hal ini disebut juga autocorrelation, ketia \(Y\) berkorelasi dengan dirinya sendiri di masa lalu:
\(Y_t = \beta_0 + \beta_1 Y_{t-1}+\mu_t\)
Forecasting
Data-data yang sifatnya time series nantinya akan berguna untuk melakukan forecasting.
Kita akan eksplorasi lagi soal time series minggu depan.
Kita juga akan menggambungkan cross-section dengan time-series: Panel data.