Pertemuan 8
Data adalah kumpulan informasi yang didapatkan dari melakukan pengamatan (observasi).
Pada hakikatnya, penggunaan data dan statistika berfungsi untuk menjawab pertanyaan seperti:
Bagaimana kondisi sosial ekonomi penduduk Indonesia? Dibandingkan dengan RRT?
Berapa ekspor Indonesia tahun 2020? Apakah meningkat dibandingkan tahun 2019?
Anda setiap hari juga mengumpulkan data!
Data akan menjadi basis dalam menjawab pertanyaan dan membuat keputusan. Data salah, keputusan juga salah!
Data yang baik haruslah objektif, representatif, valid, tepat waktu dan relevan.
Objektif berarti dapat meminimalisir perbedaan persepsi antar-pengamat / individu.
harus memiliki alat ukur yang konsisten dan disepakati, dengan metode yang dapat diaudit.
contoh: di kelas saya ada 10 orang yang gendut vs di kelas saya, 10 orang punya berat badan di atas 70 kg.
Representatif berarti harus mewakili obyek yang diamati. Obyek yang representatif biasanya akan didapatkan dengan sampling yang acak.
valid berarti data tersebut memiliki kesalahan sampling yang kecil dan memiliki tingkat ketelitian yang tinggi. Jika diulang samplingnya, hasilnya akan sama.
tepat waktu berarti datanya harus sesuai berdasarkan waktu dan selalu terupdate.
relevan berarti data tersebut benar-benar mengukur hal yang sesuai dengan pertanyaan yang ingin dijawab.
jenis data | definisi | contoh |
---|---|---|
Kategorikal / nominal | kualitatif, ga ada urutan | nama, jenis kelamin, suku |
Ordinal | kualitatif, ada urutan | ukuran baju, ukuran sepatu, medali |
Hitung | kuantitatif, integer | nomor telepon, jumlah anak |
Riil / kontinyu | kuantitatif, riil | PDB, ekspor impor |
data kontinyu dapat dibagi 2: rasio dan interval.
keduanya memiliki interval yang sama untuk semua angka.
tapi, interval tidak punya 0 yang berarti.
untuk rasio, 0 = tidak ada. contoh: ekspor, impor, kalori. Tidak ada nilai negatif.
interval, 0 = ga penting. contoh: nilai TOEFL, temperatur. Ada nilai negatif.
Transformasi di rasio tidak akan mengubah besarnya urutan.
10 kg = 2x lebih berat dari 5 kg. begitupun 22.04 lbs vs 11.02 lbs
1\(^o\) C to 100\(^o\) C = 100x lipat, tapi 274.15\(^o\) K to 373.15\(^o\) K bukan 100x lipat
Tipe data yang berbeda menuntut cara analisis yang berbeda pula.
Biasanya, dalam metode statistik, data rasio adalah data yang paling mudah untuk digunakan dalam analisis.
Jika tipe data anda bukan rasio, harus sedikit diakalin metodenya. Bisa, tapi lebih ribet dikit.
Di mata kuliah ini, kita akan fokus pada data yang sebagian besar berupa data rasio.
Sensus adalah metode pengumpulan data yang melibatkan keseluruhan populasi yang ingin diselidiki.
Sensus memiliki gambaran yang lengkap, tapi anda tidak boleh menyimpulkan sesuatu dari luar populasi.
Kelemahan sensus: mahal dan makan banyak waktu.
sampling adalah metode pengumpulan data yang melibatkan sebagian dari populasi yang ingin diselidiki.
misalnya, untuk menilai apakah kelas A lebih bagus nilainya dari kelas B, saya menguji 10 orang dari kelas A dan 10 orang dari kelas B.
10 orang ini kita sebut sampel, sementara populasinya adalah keseluruhan anggota kelas A dan kelas B.
sampling lebih murah, namun kita harus memastikan bahwa samplenya representatif.
dapat dilakukan secara acak dan non-acak.
Acak (random) artinya bahwa semua anggota populasi punya kesempatan yang sama untuk menjadi sampel.
Non-acak berarti kita mendorong satu bagian dari populasi dengan karakteristik tertentu punya kesempatan yang lebih banyak untuk terpilih menjadi sampel.
Idealnya adalah kita punya data populasi. Tapi biasanya impractical.
Jika harus pakai sampel, maka sampel yang terbaik adalah sampel yang representatif.
Sebuah sampel kita anggap representatif jika sampel tersebut punya karakteristik yang kita yakini mendekati populasi aslinya.
Volume darah dalam tubuh manusia biasanya sekitar 5 liter. Untuk ngetes diabetes, diambil 0,5 ml sampel saja, gak diambil semua.
Kenapa? Karena 0,5 ml darah ini mewakili kesemua darah di tubuh manusia. Jika 0,5 liter ini terdeteksi diabetes, maka yang di tubuh juga pasti diabetes.
Demokrasi juga sama: dari total 270 juta manusia di Indonesia, dianggap ada 550 orang yang bisa mewakili.
Karakteristik data yang kita lihat umumnya adalah tendensi sentral, sebaran dan distribusi.
Sebuah sampel yang representatif harusnya memiliki rata-rata, standar deviasi dan bentuk distribusi yang serupa dengan aslinya.
Misalnya seluruh mahasiswa PIWAR 2 sejumlah 150 orang punya rata-rata UTS 70 dengan rentang 15.
Jika saya ambil sampel 15 orang lalu saya tes lagi, maka 15 orang itu harus punya rata-rata dan rentang yang sama.
Sampling yang diambil secara acak akan memiliki kemungkinan representatif yang tinggi dibanding disaring (misalnya, 15 orang ini hanya saya pilih yang nilainya paling tinggi).
Tidak hanya nilai, tapi juga karakteristik lain: jika cewe:cowo di PIWAR = 70:30, maka sampelnya juga akan punya perbandingan yang sama. Juga karakteristik-karakteristik lainnya.
Next time kita akan belajar tendensi sentral, rentang dan distribusi lebih jauh.
Simple random sampling berarti mengambil sampel secara acak langsung dari populasinya.
Stratified random sampling: membagi populasi menjadi sub-populasi atau strata, lalu mengambil secara acak dari tiap-tiap stratum.
Cluster random sampling: membagi populasi menjadi strata, lalu secara acak mengambil satu stratum dan mengambil semua anggota stratum tersebut menjadi sampel.
Multistage random sampling: Membagi populasi ke dalam strata, mengambil beberapa strata secara acak, lalu dari strata yang diambil tersebut disampling lagi.
Semua teknik di atas dapat dilakukan dengan kemungkinan mendapatkan sample representatif yang relatif mirip.
Tapi intinya, harus dilakukan secara acak!
Semakin besar populasinya, biasanya menggunakan strata bisa lebih membuat percaya diri.
tapi jika benar dapat melakukannya secara acak, maka seharusnya cara manapun akan memiliki data yang tidak berbeda jauh.
Statistika adalah ilmu yang mempelajari bagaimana cara mengumpulkan, mengorganisasikan, menerjemahkan dan menarik kesimpulan dari data.
Meskipun statistika awalnya banyak diajarkan untuk bidang ilmu pasti, namun saat ini ekonomi dan manajemen juga menggunakannya.
Cara-cara menerjemahkan dan menarik kesimpulan ini juga tergantung dari jenis data yang kita perlukan.