Mengukur pentingnya suatu kata menggunakan TF-IDF
TF-IDF (Term Frequency-Inverse Document Frequency) adalah teknik pemrosesan bahasa alami (NLP) yang digunakan untuk mengukur pentingnya kata dalam sebuah dokumen. TF-IDF juga digunakan dalam sistem temu kembali informasi.
Bagaimana TF-IDF bekerja?
- TF-IDF merupakan hasil perkalian dari dua statistik, yaitu term frequency (TF) dan inverse document frequency (IDF)
- TF adalah frekuensi relatif suatu istilah dalam suatu dokumen
- IDF adalah ukuran informasi yang diberikan oleh istilah, yaitu seberapa sering atau jarang sebuah istilah muncul dalam seluruh dokumen
Manfaat TF-IDF
- TF-IDF berguna dalam klasifikasi teks
- TF-IDF membantu model pembelajaran mesin membaca kata-kata
- TF-IDF dapat mengukur pentingnya atau relevansi representasi string (kata, frasa, lema, dsb.) dalam suatu dokumen
- TF-IDF dapat mengukur pentingnya kata kunci atau frasa dalam dokumen atau halaman web
- TF-IDF menyeimbangkan frekuensi umum dan jarang
1. Term Frequency (TF)
Agar lebih memahami apa itu sebenarnya TF, maka berikut ini cara menghitung nilai TF secara manual di python
Jadi bisa dikatakan TF adalah proporsi kemunculan kata dalam suatu dokumen. Titik treshold untuk menentukan kata mana yang perlu di exclude bisa bergantung dari persepktif peneliti.
2. IDF (Inverse Documents Frequency)
Berbeda dengan TF yang melibatkan 1 dokumen, IDF menggunakan beberapa dokumen untuk menghitung proporsi frekuensinya. Misal kita punya tiga dokumen yang disimpan dalam format list yaitu
pertama kita akan menghitung frekuensi tiap kata di setiap dokumen
Dapat diartikan bahwa kata “the” muncul 3 kali di 3 dokumen, kata “lazy” muncul 2 kali di 3 dokumen. Selanjutnya kita akan menghitung IDF nya
dapat dilihat bahwa rumus idf membalik rumus proporsi dan oleh karena itu dikatakan Inverse Document Frequency. Semakin tinggi nilai idf, maka semakin penting juga kata tersebut.
Kata “the” dan “dog” bernilai idf = 0 dan dianggap tidak penting karena kata tersebut muncul di semua dokumen.
3. TF-IDF (Term Frequency — Inverse Document Frequency)
Nilai TF-IDF memberikan gambaran tentang seberapa penting sebuah kata dalam suatu dokumen relatif terhadap seluruh koleksi dokumen. Semakin tinggi nilai TF-IDF suatu kata, semakin penting kata tersebut untuk dokumen tertentu.
Dibawah ini merupakan cara menghitung frequency tiap kata tiap dokumen secara manual.
kita perlu menghitung nilai TF terlebih dahulu yaitu
Setelah itu kita akan menghitung nilai IDF. Nilai TF-IDF merupakan perkalian dari TF dan IDF sehingga akan didapatkan nilai TF-IDF untuk setiap dokumen yaitu
Kesimpulan:
- Semakin tinggi nilai TF-IDF, semakin penting kata tersebut untuk dokumen tertentu karena kata itu jarang muncul di seluruh koleksi dokumen dan sering muncul di dokumen yang sedang dianalisis.
- Semakin rendah nilai TF-IDF, semakin tidak penting kata tersebut, karena kata tersebut lebih sering muncul di banyak dokumen dan tidak memberikan banyak informasi tambahan untuk dokumen tersebut.