Perbedaan Bag of Word dan Word Embedding

2 min readMar 23, 2025

Bag of Words (BoW) dan Word Embedding adalah dua teknik yang digunakan untuk merepresentasikan kata dalam bentuk numerik dalam Pemrosesan Bahasa Alami (NLP), tetapi mereka berbeda dalam cara mereka menangani kata-kata dan konteks dalam teks.

1. Bag of Words (BoW)

Bag of Words (BoW) adalah model representasi teks yang mengabaikan urutan kata-kata dalam kalimat dan hanya fokus pada frekuensi kemunculan kata dalam dokumen atau korpus teks. Meskipun sederhana, model ini tidak mempertimbangkan makna semantik kata dan hubungan antar kata.

Cara Kerja:

  1. Frekuensi Kata: BoW mengonversi setiap dokumen menjadi vektor berdasarkan frekuensi kemunculan kata dalam dokumen.
  2. Mengabaikan Urutan Kata: Urutan kata dalam kalimat tidak diperhitungkan. Misalnya, “The cat sat on the mat” dan “On the mat sat the cat” akan memiliki representasi yang sama.
  3. Sparse Representation: BoW menghasilkan vektor yang sangat sparse (banyak nilai 0), karena setiap kata unik dalam korpus menjadi fitur baru.

Kelebihan:

  • Mudah dipahami dan diimplementasikan.
  • Cocok untuk tugas sederhana seperti klasifikasi teks atau pencarian dokumen.

Kekurangan:

  • Tidak mempertimbangkan konteks atau hubungan antar kata.
  • Menghasilkan vektor yang besar dan jarang (sparse) ketika ada banyak kata dalam korpus.

Contoh:

Jika kita memiliki dua kalimat:

  • “I love cats”
  • “Cats are awesome”

2. Word Embedding

Word Embedding adalah representasi kata dalam bentuk vektor berdimensi rendah yang mempertimbangkan konteks kata tersebut dalam kalimat. Teknik ini menciptakan representasi numerik yang lebih efisien dan semantik dibandingkan dengan Bag of Words (BoW). Word2Vec, GloVe, dan FastText adalah beberapa algoritma populer yang digunakan untuk membuat word embeddings.

Cara Kerja:

  1. Menciptakan Vektor Berdimensi Rendah: Setiap kata dalam korpus teks diwakili oleh vektor numerik dengan dimensi yang lebih kecil (misalnya, 100 atau 300 dimensi).
  2. Mempertimbangkan Konteks: Word Embedding mempertimbangkan konteks kata dalam kalimat untuk menghasilkan vektor yang lebih informatif dan relevan.
  3. Semantic Similarity: Kata-kata dengan makna yang serupa akan memiliki representasi vektor yang dekat satu sama lain dalam ruang vektor.

Kelebihan:

  • Menangkap hubungan semantik antar kata.
  • Lebih efisien dalam menangani kata-kata yang memiliki arti serupa (misalnya, “king” dan “queen”).

Kekurangan:

  • Memerlukan waktu pelatihan yang lebih lama dan sumber daya komputasi yang lebih besar.
  • Memerlukan korpus teks besar untuk pelatihan.

--

--

A.Rofiqi Maulana
A.Rofiqi Maulana

Written by A.Rofiqi Maulana

Data Scientist Jagoan Hosting. Visit my website at rofiqi.com

No responses yet