Ensemble Learning

A.Rofiqi Maulana
2 min readJan 23, 2021

--

Ensemble learning bisa dibilang sebagai pembelajaran menggunakan sistem demokrasi. Hal ini karena hasil prediksi menggunakan voting dari beberapa metode. Secara arti, jika kita lihat pengertian ensemble adalah

a group of items viewed as a whole rather than individually.

Ensemble learning dengan konsep majority voting hanya bekerja (memberikan akurasi maksimum) jika dan hanya jika kedua syarat dibawah ini dipenuhi

  1. Setiap saling model saling independen, yang dilatih dengan himpunan data yang saling independen.
  2. Masing-masing model memiliki akurasi leihh dari 50%

Teknik penggabungan sejumlah model ini dapat menggunakan

  1. Bagging (random sampling with replacement)
  2. Boosting (weighted based on accuray)
  3. Random Forest (several decision tree)
  4. Stacking

1. Bagging

Bagging (Boostrap aggregating) dikenal sebagai salaah satu metode yang paling simpel dalam arching (adaptive reweighting and combining), sebuah terminologi umum yang mengacu pada penggunaan kembali atau pemilihan data untuk meningkatkan akurasi klasifikasi (Sewell, 2018).

Bagging dapat digunakan untuk berbagai model dengan tujuan klasifikasi maupun regresi seperti Decision Tree, Naive Bayes, ANN, SVM. Namun secara umum, bagging banyak digunakan untuk model yang tidak stabil seperti decision tree dan ANN.

tidak stabil = adanya sedikit perubahan pada latih akan berpengaruh besar pada model pembelajaran yang dihasilkan.

Cara kerja metode bagging ini dengan cara penggabungan sejumlah r model yang dilatih menggunakan sejumlah r himpunan data latih yang dibangkitkan secara acak mengggunakan metode bootstrap masing-masing model tersebut saling independen.

Metode boostrap atau random with replacement adalah pembangkitan subhimpunan data latih menggunakan sampling acak dengan distribusi seragam, dimana data yang sudah terpilih secara acak bisa dikembalikan ke data sumber sehingga dapat terpilih kembali.

Metode bagging akan bekerja jika setiap model tunggal bersifat tidak stabil, namun saling melengkapi. Penggabungan beberapa model tersebut mampu mereduksi kesalahan prediksi.

Pada umumnya, 50 model independen sudah cukup untuk menghasilkan model gabungan yang memberikan kesalahan relatih rendah (Breiman 1996a). Penambahan jumlah model tunggl hingga 100 model tidak mampu lagi mereduksi kesalahan (Breiman 1996a).

2. Boosting

Metode boosting bekerja dengan cara memperkuat (boost) sebuah model klasifikasi awal yang lemah, secara sekunsial menggunakan penyamplingan objek data boostrap berdasarkan pembobotan dinamis. Proses penguatan model dilakukan sampai T kali sampai dianggap model klasifikasi kuat.

Sejumlah T model yang dihasilkan selanjutnya digabungkan menggunakan majority voting dengan pembobotan sesuai akurasi (semakin besar akurasi, semakin besar juga bobotnya).

Apa perbedaan mendasar boosting vs bagging ?

  1. Bagging merupakan boostraping dengan uniform distribution secara parallel sehingga setiap subset adalah independen. Boosting merupakan boostraping secara sequntial.
  2. Keputusan akhir pada bagging didapatkan dengan majority voting tanpa bobot. Sedangkan keputusan akhir pada boosting dilakukan dengan pembobotan tertentu.

3. Random Forest

Dapat dianalogikan bahwa random forest ibarat hutan sedangkan decision tree ibarat pohon. Sehingga random forest adalah kombinasi dari beberapa model decision tree.

Perbedaan Random Forest dan Bagging adalah bagging menggunakan model independen sedangkan random forest hanya menggunakan beberapa fitur saja (biasanya 20% dari jumlah fitur).

Refference

  • Suyanto. 2018. Machine Learning Tingkat Dasar dan Lanjut. Informatika. Bandung.

--

--