Exploratory Data Analytic (EDA): Langkah Awal Menjadi Data Analyst Andal


📊 Apa Itu EDA?

Exploratory Data Analytic (EDA) adalah proses penting dalam analisis data untuk memahami struktur, pola, dan hubungan antar data sebelum masuk ke tahap pemodelan atau prediksi. EDA membantu kita melihat apakah ada anomali (outlier), data kosong, distribusi tidak normal, dan hal-hal penting lainnya dalam dataset.

🎯 Tujuan EDA

EDA dilakukan agar kita dapat:

  • Memahami karakteristik data secara menyeluruh

  • Mendeteksi outlier dan pola distribusi

  • Menilai hubungan antar variabel

  • Menyiapkan data untuk proses analitik selanjutnya


📘 Materi Utama dalam Modul EDA

1️⃣ Mengenal Tipe Data

Jenis Data Contoh
Binomial Ya/Tidak, Laki-laki/Perempuan
Nominal Warna, Nama Kota
Ordinal Tingkat pendidikan, Ranking
Diskrit Jumlah anak, Suara pemilu
Kontinu Berat badan, Gaji
Interval Suhu dalam °C
Rasio Panjang, Berat, Waktu


2️⃣ Ukuran Statistik Dasar

  • Mean (Rata-rata): Nilai rata-rata dari seluruh data

  • Median: Nilai tengah (berguna jika ada outlier)

  • Modus: Nilai yang paling sering muncul

  • Deviasi Standar & Varian: Ukuran sebaran data dari rata-rata

  • Kuartil & IQR: Untuk mendeteksi pencilan (outlier)


3️⃣ Identifikasi & Penanganan Outlier

  • Metode deteksi: Boxplot, IQR, z-score

  • Cara penanganan:

    • Dihapus dari data

    • Ditransformasi (log/akar)

    • Gunakan model robust yang tahan outlier


4️⃣ Analisis Distribusi Data

Jenis distribusi yang dipelajari:

  • Distribusi Normal (Bell Curve): Banyak ditemukan dalam tinggi badan, IQ, dll.

  • Distribusi Binomial: Cocok untuk data sukses/gagal

  • Distribusi Chi-Square: Sering digunakan untuk uji hipotesis dan data kuesioner


5️⃣ Analisis Korelasi

Korelasi menunjukkan seberapa kuat hubungan antara dua variabel:

  • Positif: Kedua variabel naik bersama

  • Negatif: Satu naik, satu turun

  • Tidak Berkorelasi: Tidak ada hubungan yang terlihat

📌 Korelasi divisualisasikan dengan heatmap agar lebih mudah dipahami.


6️⃣ Penanganan Missing Value (Data Kosong)

Data kosong bisa sangat mengganggu hasil analisis.

Cara menanganinya:

  • Menghapus data/kolom (jika banyak missing value)

  • Mengisi nilai kosong dengan:

    • Rata-rata (mean)

    • Nilai terbanyak (modus)

    • Aturan logis berdasarkan konteks


🧪 Proyek EDA: Belajar Langsung dari Data

Peserta pelatihan juga diberikan tugas langsung untuk menganalisis dataset publik (misalnya dari Kaggle) menggunakan Python dan Pandas. Mulai dari:

  • Menampilkan statistik data

  • Menangani outlier & missing value

  • Visualisasi dengan boxplot & histogram

  • Membuat heatmap korelasi


🎓 Penutup

Pelatihan Exploratory Data Analytic (EDA) ini membekali pelajar sekolah menengah dengan dasar kuat dalam dunia data. Sebelum membangun model canggih, kita harus bisa memahami data kita secara menyeluruh — dan itulah inti dari EDA.

“Data tidak akan bicara apa pun sampai kamu tahu cara bertanya — EDA adalah cara pertama bertanya pada data.”
— abdumar.com

📚 Sumber: Modul 5 – Exploratory Data Analytic, Thematic Academy, Digital Talent Scholarship 2023 – Kominfo RI

0 Komentar