📊 Apa Itu EDA?
Exploratory Data Analytic (EDA) adalah proses penting dalam analisis data untuk memahami struktur, pola, dan hubungan antar data sebelum masuk ke tahap pemodelan atau prediksi. EDA membantu kita melihat apakah ada anomali (outlier), data kosong, distribusi tidak normal, dan hal-hal penting lainnya dalam dataset.
🎯 Tujuan EDA
EDA dilakukan agar kita dapat:
-
Memahami karakteristik data secara menyeluruh
-
Mendeteksi outlier dan pola distribusi
-
Menilai hubungan antar variabel
-
Menyiapkan data untuk proses analitik selanjutnya
📘 Materi Utama dalam Modul EDA
1️⃣ Mengenal Tipe Data
Jenis Data | Contoh |
---|---|
Binomial | Ya/Tidak, Laki-laki/Perempuan |
Nominal | Warna, Nama Kota |
Ordinal | Tingkat pendidikan, Ranking |
Diskrit | Jumlah anak, Suara pemilu |
Kontinu | Berat badan, Gaji |
Interval | Suhu dalam °C |
Rasio | Panjang, Berat, Waktu |
2️⃣ Ukuran Statistik Dasar
-
Mean (Rata-rata): Nilai rata-rata dari seluruh data
-
Median: Nilai tengah (berguna jika ada outlier)
-
Modus: Nilai yang paling sering muncul
-
Deviasi Standar & Varian: Ukuran sebaran data dari rata-rata
-
Kuartil & IQR: Untuk mendeteksi pencilan (outlier)
3️⃣ Identifikasi & Penanganan Outlier
-
Metode deteksi: Boxplot, IQR, z-score
-
Cara penanganan:
-
Dihapus dari data
-
Ditransformasi (log/akar)
-
Gunakan model robust yang tahan outlier
-
4️⃣ Analisis Distribusi Data
Jenis distribusi yang dipelajari:
-
Distribusi Normal (Bell Curve): Banyak ditemukan dalam tinggi badan, IQ, dll.
-
Distribusi Binomial: Cocok untuk data sukses/gagal
-
Distribusi Chi-Square: Sering digunakan untuk uji hipotesis dan data kuesioner
5️⃣ Analisis Korelasi
Korelasi menunjukkan seberapa kuat hubungan antara dua variabel:
-
Positif: Kedua variabel naik bersama
-
Negatif: Satu naik, satu turun
-
Tidak Berkorelasi: Tidak ada hubungan yang terlihat
📌 Korelasi divisualisasikan dengan heatmap agar lebih mudah dipahami.
6️⃣ Penanganan Missing Value (Data Kosong)
Data kosong bisa sangat mengganggu hasil analisis.
Cara menanganinya:
-
Menghapus data/kolom (jika banyak missing value)
-
Mengisi nilai kosong dengan:
-
Rata-rata (mean)
-
Nilai terbanyak (modus)
-
Aturan logis berdasarkan konteks
-
🧪 Proyek EDA: Belajar Langsung dari Data
Peserta pelatihan juga diberikan tugas langsung untuk menganalisis dataset publik (misalnya dari Kaggle) menggunakan Python dan Pandas. Mulai dari:
-
Menampilkan statistik data
-
Menangani outlier & missing value
-
Visualisasi dengan boxplot & histogram
-
Membuat heatmap korelasi
🎓 Penutup
Pelatihan Exploratory Data Analytic (EDA) ini membekali pelajar sekolah menengah dengan dasar kuat dalam dunia data. Sebelum membangun model canggih, kita harus bisa memahami data kita secara menyeluruh — dan itulah inti dari EDA.
“Data tidak akan bicara apa pun sampai kamu tahu cara bertanya — EDA adalah cara pertama bertanya pada data.”
— abdumar.com
📚 Sumber: Modul 5 – Exploratory Data Analytic, Thematic Academy, Digital Talent Scholarship 2023 – Kominfo RI
0 Komentar