Belajar Melakukan Normalisasi dan Deteksi Outlier dalam RapidMiner

Sebelum melangkah, perlu dipahami dulu, Outlier adalah kasus atau data yang memiliki karakteristi unik yang terlihat sangat berbeda jauh dari observasi-observasi lainnya dan muncul dalam bentuk nilai ekstrim baik untuk sebuah variabel tunggal atau kombinasi (Ghozali, 2011 : 41). 

Langkah penting lain pada pembersihan data adalah untuk mengidentifikasi kasus yang tidak biasa dan menghapusnya dari dataset. Dalam beberapa situasi, outlier sendiri mungkin merupakan kasus yang paling menarik (misalnya mendeteksi penyimpangan transaksi kartu kredit), namun dalam kebanyakan kasus, outlier hanyalah hasil dari pengukuran yang salah dan harus dibuang dari dataset.
Inilah yang akan kita bahas dalam tutorial ini.

Langkah 1 : Menyiapkan data.
1. Tarik data
Titanic ke dalam proses. 

2. Menambahkan operator Select Attributes dan hubungkan.

2. Ubah Parameters sehingga Kita membuang Cabin, Life Boat, Name, dan Ticket Number.


 

 

Hasilnya akan menjadi kumpulan data yang hanya berisi kolom yang kita percaya akan berkontribusi baik terhadap deteksi outlier. Kita akan menggunakan algoritma deteksi outlier berbasis jarak jauh yang menghitung jarak Euclidean antara titik data dan menandai titik-titik yang paling jauh dari titik data lainnya sebagai outlier. Jarak Euclidean menggunakan jarak antara dua titik data untuk masing-masing atribut.

Apa efeknya pada jarak jika atribut memiliki rentang nilai yang berbeda (satu atribut antara 0 dan 5 dan atribut lainnya antara 1 dan 1000)? Atribut dengan nilai lebih besar akan memberi kontribusi lebih  banyak daripada nilai yang lebih kecil. Untuk alasan ini, kita harus memastikan bahwa semua atribut menggunakan rentang nilai yang serupa. Transformasi ini disebut Normalisasi.

Langkah 2. Menormalisasi rentang nilai atribut.
Tambahkan operator
Normalize dan hubungkan.

Secara umum, kita harus selalu menormalkan data sebelum menerapkan algoritma berbasis jarak seperti deteksi outlier atau k-Means clustering. Dengan menggunakan parameter default, operator Normalize akan melakukan Transformasi z (juga dikenal sebagai Standardisasi) yang menghasilkan nilai rata-rata 0 dan deviasi standar 1 untuk setiap atribut. Dengan kata lain, semua atribut berada pada skala yang sama setelah normalisasi dan dapat dibandingkan satu sama lain.

Langkah 3 . Menormalisasi rentang nilai atribut.
Tambahkan operator Detect out dan hubungkan


Secara umum, kita harus selalu menormalkan data sebelum menerapkan algoritma berbasis jarak seperti deteksi outlier atau k-Means clustering. Dengan menggunakan parameter default, operator Normalize akan melakukan Transformasi z (juga dikenal sebagai Standardisasi) yang
menghasilkan nilai rata-rata 0 dan deviasi standar 1 untuk setiap atribut. Dengan kata lain, semua atribut berada pada skala yang sama setelah normalisasi dan dapat dibandingkan satu sama lain.

 Langkah 4. Menghapus outlier dari contoh.
1. Tambahkan
Filter Examples ke proses dan hubungkan ke operator sebelumnya dan juga ke port
hasil di sebelah kanan.

2. Di Parameternya, tambahkan filter baru dengan Outlier, equal, dan false sebagai nilai.
3. Jalankan prosesnya


 
Prosesnya mungkin berjalan beberapa lama tapi akan beralih ke tampilan Results secara otomatis
saat selesai. Kita akan melihat bahwa hasilnya adalah kumpulan data dengan 1.299 contoh serta 10
outlier yang telah berhasil dihapus.

 


 

 

0 Komentar