Data & Statistika

Pertemuan 8

Matematika & Statistika

Data dan Statistika

  • Data adalah kumpulan informasi yang didapatkan dari melakukan pengamatan (observasi).

  • Pada hakikatnya, penggunaan data dan statistika berfungsi untuk menjawab pertanyaan seperti:

    • Bagaimana kondisi sosial ekonomi penduduk Indonesia? Dibandingkan dengan RRT?

    • Berapa ekspor Indonesia tahun 2020? Apakah meningkat dibandingkan tahun 2019?

  • Anda setiap hari juga mengumpulkan data!

Data yang baik

  • Data akan menjadi basis dalam menjawab pertanyaan dan membuat keputusan. Data salah, keputusan juga salah!

  • Data yang baik haruslah objektif, representatif, valid, tepat waktu dan relevan.

  • Objektif berarti dapat meminimalisir perbedaan persepsi antar-pengamat / individu.

  • harus memiliki alat ukur yang konsisten dan disepakati, dengan metode yang dapat diaudit.

  • contoh: di kelas saya ada 10 orang yang gendut vs di kelas saya, 10 orang punya berat badan di atas 70 kg.

Data yang baik

  • Representatif berarti harus mewakili obyek yang diamati. Obyek yang representatif biasanya akan didapatkan dengan sampling yang acak.

  • valid berarti data tersebut memiliki kesalahan sampling yang kecil dan memiliki tingkat ketelitian yang tinggi. Jika diulang samplingnya, hasilnya akan sama.

  • tepat waktu berarti datanya harus sesuai berdasarkan waktu dan selalu terupdate.

  • relevan berarti data tersebut benar-benar mengukur hal yang sesuai dengan pertanyaan yang ingin dijawab.

Jenis-jenis data

jenis data definisi contoh
Kategorikal / nominal kualitatif, ga ada urutan nama, jenis kelamin, suku
Ordinal kualitatif, ada urutan ukuran baju, ukuran sepatu, medali
Hitung kuantitatif, integer nomor telepon, jumlah anak
Riil / kontinyu kuantitatif, riil PDB, ekspor impor

Data Kontinyu

  • data kontinyu dapat dibagi 2: rasio dan interval.

  • keduanya memiliki interval yang sama untuk semua angka.

  • tapi, interval tidak punya 0 yang berarti.

    • untuk rasio, 0 = tidak ada. contoh: ekspor, impor, kalori. Tidak ada nilai negatif.

    • interval, 0 = ga penting. contoh: nilai TOEFL, temperatur. Ada nilai negatif.

  • Transformasi di rasio tidak akan mengubah besarnya urutan.

    • 10 kg = 2x lebih berat dari 5 kg. begitupun 22.04 lbs vs 11.02 lbs

    • 1\(^o\) C to 100\(^o\) C = 100x lipat, tapi 274.15\(^o\) K to 373.15\(^o\) K bukan 100x lipat

Dampaknya?

  • Tipe data yang berbeda menuntut cara analisis yang berbeda pula.

  • Biasanya, dalam metode statistik, data rasio adalah data yang paling mudah untuk digunakan dalam analisis.

  • Jika tipe data anda bukan rasio, harus sedikit diakalin metodenya. Bisa, tapi lebih ribet dikit.

  • Di mata kuliah ini, kita akan fokus pada data yang sebagian besar berupa data rasio.

Cara pengambilan data

  • Sensus adalah metode pengumpulan data yang melibatkan keseluruhan populasi yang ingin diselidiki.

    • misalnya, untuk mendapatkan nilai UAS mata kuliah statistika, saya mencatat semua nilai UAS mahasiswa APP yang mengambil mata kuliah statistika.
  • Sensus memiliki gambaran yang lengkap, tapi anda tidak boleh menyimpulkan sesuatu dari luar populasi.

    • misalnya, hasil sensus penduduk jagakarsa tidak dapat anda gunakan untuk menyimpulkan Jakarta Selatan secara umum.
  • Kelemahan sensus: mahal dan makan banyak waktu.

Cara pengambilan data

  • sampling adalah metode pengumpulan data yang melibatkan sebagian dari populasi yang ingin diselidiki.

    • misalnya, untuk menilai apakah kelas A lebih bagus nilainya dari kelas B, saya menguji 10 orang dari kelas A dan 10 orang dari kelas B.

    • 10 orang ini kita sebut sampel, sementara populasinya adalah keseluruhan anggota kelas A dan kelas B.

  • sampling lebih murah, namun kita harus memastikan bahwa samplenya representatif.

Sampling

  • dapat dilakukan secara acak dan non-acak.

  • Acak (random) artinya bahwa semua anggota populasi punya kesempatan yang sama untuk menjadi sampel.

    • misalnya saya tunjuk secara acak 10 mahasiswa di tiap kelas.
  • Non-acak berarti kita mendorong satu bagian dari populasi dengan karakteristik tertentu punya kesempatan yang lebih banyak untuk terpilih menjadi sampel.

    • misalnya saya hanya menunjuk 10 anak yang pakai kacamata, atau menunjuk 10 anak yang duduknya paling dekat saya.

Acak atau jangan?

  • Idealnya adalah kita punya data populasi. Tapi biasanya impractical.

  • Jika harus pakai sampel, maka sampel yang terbaik adalah sampel yang representatif.

  • Sebuah sampel kita anggap representatif jika sampel tersebut punya karakteristik yang kita yakini mendekati populasi aslinya.

Representatif

  • Volume darah dalam tubuh manusia biasanya sekitar 5 liter. Untuk ngetes diabetes, diambil 0,5 ml sampel saja, gak diambil semua.

  • Kenapa? Karena 0,5 ml darah ini mewakili kesemua darah di tubuh manusia. Jika 0,5 liter ini terdeteksi diabetes, maka yang di tubuh juga pasti diabetes.

  • Demokrasi juga sama: dari total 270 juta manusia di Indonesia, dianggap ada 550 orang yang bisa mewakili.

Representatif

  • Karakteristik data yang kita lihat umumnya adalah tendensi sentral, sebaran dan distribusi.

  • Sebuah sampel yang representatif harusnya memiliki rata-rata, standar deviasi dan bentuk distribusi yang serupa dengan aslinya.

  • Misalnya seluruh mahasiswa PIWAR 2 sejumlah 150 orang punya rata-rata UTS 70 dengan rentang 15.

  • Jika saya ambil sampel 15 orang lalu saya tes lagi, maka 15 orang itu harus punya rata-rata dan rentang yang sama.

Random

  • Sampling yang diambil secara acak akan memiliki kemungkinan representatif yang tinggi dibanding disaring (misalnya, 15 orang ini hanya saya pilih yang nilainya paling tinggi).

  • Tidak hanya nilai, tapi juga karakteristik lain: jika cewe:cowo di PIWAR = 70:30, maka sampelnya juga akan punya perbandingan yang sama. Juga karakteristik-karakteristik lainnya.

  • Next time kita akan belajar tendensi sentral, rentang dan distribusi lebih jauh.

Sampling acak

  • Simple random sampling berarti mengambil sampel secara acak langsung dari populasinya.

  • Stratified random sampling: membagi populasi menjadi sub-populasi atau strata, lalu mengambil secara acak dari tiap-tiap stratum.

  • Cluster random sampling: membagi populasi menjadi strata, lalu secara acak mengambil satu stratum dan mengambil semua anggota stratum tersebut menjadi sampel.

  • Multistage random sampling: Membagi populasi ke dalam strata, mengambil beberapa strata secara acak, lalu dari strata yang diambil tersebut disampling lagi.

Pilih yang mana?

  • Semua teknik di atas dapat dilakukan dengan kemungkinan mendapatkan sample representatif yang relatif mirip.

  • Tapi intinya, harus dilakukan secara acak!

  • Semakin besar populasinya, biasanya menggunakan strata bisa lebih membuat percaya diri.

  • tapi jika benar dapat melakukannya secara acak, maka seharusnya cara manapun akan memiliki data yang tidak berbeda jauh.

Statistika

  • Statistika adalah ilmu yang mempelajari bagaimana cara mengumpulkan, mengorganisasikan, menerjemahkan dan menarik kesimpulan dari data.

  • Meskipun statistika awalnya banyak diajarkan untuk bidang ilmu pasti, namun saat ini ekonomi dan manajemen juga menggunakannya.

  • Cara-cara menerjemahkan dan menarik kesimpulan ini juga tergantung dari jenis data yang kita perlukan.