Imbalanced Learning

  1. Accuracy (salah jika kita menggunakan ini)
  2. Balanced-Accuracy (bisa jadi benar jika kita menggunakan ini)
  3. ROC (salah jika kita menggunakan ini)
  4. PR-ROC (bisa jadi benar jika kita menggunakan ini)
  1. Ovesampling (menambahkan data baru pada kategori yang minonitas)
  2. Undersampling (mengurangi data pada kategori yang mayoritas)
  3. SMOTE
  1. Problem Definition (simplify problem misalkan dengan filtering)
  2. Data Level (use active learning)
  3. Algoritma
  1. Random oversampling tidak efektif dalam meningkatkan pengenalan kategori minoritas, sehingga undersampling lebih disukai.
  2. Semaking tinggi komposisi kategori positif dan negatif, maka semaking tinggi pula tingkat error klasifikasinya.
  3. Undersampling memiliki kekurangan yaitu pada informasi pattern nya berkurang, karena pada dasarnya kita mengurangi dataset.
  4. Jika model yang kita pilih terdapat imbalance dataset, kita bisa menambahkan active learning, yaitu fungsinya untuk memvalidasi data yang probability prediction nya berada di tengah — tengah (0.5). Active learning ini menggunakah human untuk melakukan validasi (disebut dengan oracle).
  5. Algorima genetika bisa digunakan sebagai alternatif jika kita terjebak di local maksimal, dan sudah dibuktikan bahwa capable pada menangani data rarity
  6. Gunakan metode yang menggunakan metrics untuk menangani imbalaced dataset
  7. Kita bisa menggunakan Custom Loss Function untuk gradient boosting.
  8. Kita bisa menggunakan Algoritma seperti Adacost, RareBoost, SmoteBoost

Refference

  1. Haibo, HE & Yunqian MA. 2013. Imbalanced Learning: Foundations, Algorithms, and Applications. Wiley.

--

--

Data Scientist Jagoan Hosting. Visit my website at www.arofiqimaulana.com

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store