Imbalanced Learning

2 min readDec 5, 2020

Tidak bisa dipungkiri bahwa dalam membuat suatu model machine learning, seringkali dijumpai kasus “imbalance dataset”. Imbalanced dataset merupakan kondisi dimana presentase suatu kategori pada variabel outcome tidak seimbang (balanced). Misalkan kita ingin memprediksi suatu transaksi apakah termasuk fraud atau tidak. Berdasarkan penusuran, ditemukan bahwa terdapat 98% kasus tidak fraud dan hanya 2% yang yang fraud. Kasus inilah yang dimaksud dengan “imbalanced”.

Pemodelan pada data imbalanced bisa menimbulkan bias. Hal ini karena nilai akurasi yang sangat tinggi namun nilai presisi yang rendah. Nilai akurasi bisa sangat tinggi karena keberhasilan yang tinggi pada kasus positif, yang notabene adalah mayoritas. Sedangkan pada kasus negatif, meskipun akurasi prediksi jelek, ini akan tertutupi oleh hasil dari kasus positif. Hal ini yang mengakibatkan terjadinya False Positif yang tinggi. Oleh karena itu, metrics akurasi saja tidak cukup, namun harus menggunakan nilai presisi maupun F1 Score. Beberapa catatan untuk metrik tersebut adalah

Accuracy (salah jika kita menggunakan ini)
Balanced-Accuracy (bisa jadi benar jika kita menggunakan ini)
ROC (salah jika kita menggunakan ini)
PR-ROC (bisa jadi benar jika kita menggunakan ini)

Terdapat beberapa teknik yang bisa digunakan untuk mengatasi imbalanced dataset yaitu

Ovesampling (menambahkan data baru pada kategori yang minonitas)
Undersampling (mengurangi data pada kategori yang mayoritas)
SMOTE

Untuk menangani imbalanced dataset, kita bisa mulai dari

Problem Definition (simplify problem misalkan dengan filtering)
Data Level (use active learning)
Algoritma

Berdasarkan riset terkait imbalaced dataset, ditemukan bahwa

Random oversampling tidak efektif dalam meningkatkan pengenalan kategori minoritas, sehingga undersampling lebih disukai.
Semaking tinggi komposisi kategori positif dan negatif, maka semaking tinggi pula tingkat error klasifikasinya.
Undersampling memiliki kekurangan yaitu pada informasi pattern nya berkurang, karena pada dasarnya kita mengurangi dataset.
Jika model yang kita pilih terdapat imbalance dataset, kita bisa menambahkan active learning, yaitu fungsinya untuk memvalidasi data yang probability prediction nya berada di tengah — tengah (0.5). Active learning ini menggunakah human untuk melakukan validasi (disebut dengan oracle).
Algorima genetika bisa digunakan sebagai alternatif jika kita terjebak di local maksimal, dan sudah dibuktikan bahwa capable pada menangani data rarity
Gunakan metode yang menggunakan metrics untuk menangani imbalaced dataset
Kita bisa menggunakan Custom Loss Function untuk gradient boosting.
Kita bisa menggunakan Algoritma seperti Adacost, RareBoost, SmoteBoost

Refference

Haibo, HE & Yunqian MA. 2013. Imbalanced Learning: Foundations, Algorithms, and Applications. Wiley.

Imbalanced Learning

Refference

Written by A.Rofiqi Maulana