Scrab Tabel Klasemen Premier League via BeautifulSoup

2 min readFeb 13, 2021

Kadangkala kita mempunyai kebutuhan untuk mengambil suatu data berbentuk tabel yang ada di suatu website. Sebenarnya kita bisa mengambil data tersebut dengan copy paste, namun jika data yang dibutuhkan banyak, kompleks dan butuh update setiap hari maka kita perlu melakukan “scraping”.

Kali ini saya akan mencontohkan cara mengambil data tabel klasemen liga inggris yaitu di https://www.bbc.com/sport/football/tables

Untuk melakukan scrap klasemen liga inggris tersebut, kita perlu mengetahui sedikit pengetahuan mengenai html. Tahapan scrap tabel tersebut bisa kita bagi menjadi 2 proses yaitu

Identifikasi Pattern
Proses Scrapping

1. Identifikasi Pattern

Identifikasi pattern ini bertujuan untuk melihat pola dari struktur data di tabel tersebut, class dan tag apa yang akan kita gunakan untuk parsing. Identifikasi pattern ini bisa kita lakukan dengan cara inspect element.

Tabel klasemen liga inggris mempunyai class table

Berdasarkan hasil inspect element tersebut bisa kita simpulkan bahwa

tabel mempunyai class table
tag tr menunjukkan baris
tag td menunjukkan isi tabel
tag th menunjukkan nama kolom
strukur html secara garis besar : table > tr > [td,th]

2. Proses Scrapping

Setelah kita mengetahui struktur html dan patternnya, maka kita bisa melakukan proses scrapping data tabel tersebut. Proses scrapping selengkapnya melalui Jupyter Notebook bisa dilihat disini.

Untuk mendapatkan data yang sesuai dengan format yang kita tentukan, maka kita perlu tau logic dibaliknya. Setelah kita melakukan parsing URL tersebut menggunakan BeautifulSoup, maka selanjutnya

Cari element yang mempunya class table hal ini karena data yang akan kita scrab berbentuk tabel
Karena tabel yang ada di website tersebut hanya ada satu, maka kita tidak perlu melakukan perulangan terhadap table
Kita akan melakukan perulangan tiap baris (tag tr) dan mengambil list data di setiap baris tersebut (tag th dan td)
Lakukan proses data cleaning seperti menghapus kolom yang tidak dibutuhkan dan mengganti nama kolom

Scrab Tabel Klasemen Premier League via BeautifulSoup

1. Identifikasi Pattern

2. Proses Scrapping

Written by A.Rofiqi Maulana