Scrab Tabel Klasemen Premier League via BeautifulSoup

Klasemen Liga Inggris
  1. Identifikasi Pattern
  2. Proses Scrapping

1. Identifikasi Pattern

Identifikasi pattern ini bertujuan untuk melihat pola dari struktur data di tabel tersebut, class dan tag apa yang akan kita gunakan untuk parsing. Identifikasi pattern ini bisa kita lakukan dengan cara inspect element.

Tabel klasemen liga inggris mempunyai class table
Tag tr menunjukkan baris
Tag td menunjukkan sel atau elemen
Tag th menujukkan nama kolom
  1. tabel mempunyai class table
  2. tag tr menunjukkan baris
  3. tag td menunjukkan isi tabel
  4. tag th menunjukkan nama kolom
  5. strukur html secara garis besar : table > tr > [td,th]

2. Proses Scrapping

Setelah kita mengetahui struktur html dan patternnya, maka kita bisa melakukan proses scrapping data tabel tersebut. Proses scrapping selengkapnya melalui Jupyter Notebook bisa dilihat disini.

  1. Cari element yang mempunya class table hal ini karena data yang akan kita scrab berbentuk tabel
  2. Karena tabel yang ada di website tersebut hanya ada satu, maka kita tidak perlu melakukan perulangan terhadap table
  3. Kita akan melakukan perulangan tiap baris (tag tr) dan mengambil list data di setiap baris tersebut (tag th dan td)
  4. Lakukan proses data cleaning seperti menghapus kolom yang tidak dibutuhkan dan mengganti nama kolom

--

--

Data Scientist Jagoan Hosting. Visit my website at www.arofiqimaulana.com

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store