Scrab Tabel Klasemen Premier League via BeautifulSoup

Kadangkala kita mempunyai kebutuhan untuk mengambil suatu data berbentuk tabel yang ada di suatu website. Sebenarnya kita bisa mengambil data tersebut dengan copy paste, namun jika data yang dibutuhkan banyak, kompleks dan butuh update setiap hari maka kita perlu melakukan “scraping”.

Kali ini saya akan mencontohkan cara mengambil data tabel klasemen liga inggris yaitu di https://www.bbc.com/sport/football/tables

Klasemen Liga Inggris

Untuk melakukan scrap klasemen liga inggris tersebut, kita perlu mengetahui sedikit pengetahuan mengenai html. Tahapan scrap tabel tersebut bisa kita bagi menjadi 2 proses yaitu

1. Identifikasi Pattern

Identifikasi pattern ini bertujuan untuk melihat pola dari struktur data di tabel tersebut, class dan tag apa yang akan kita gunakan untuk parsing. Identifikasi pattern ini bisa kita lakukan dengan cara inspect element.

Tabel klasemen liga inggris mempunyai class table
Tag tr menunjukkan baris
Tag td menunjukkan sel atau elemen
Tag th menujukkan nama kolom

Berdasarkan hasil inspect element tersebut bisa kita simpulkan bahwa

2. Proses Scrapping

Setelah kita mengetahui struktur html dan patternnya, maka kita bisa melakukan proses scrapping data tabel tersebut. Proses scrapping selengkapnya melalui Jupyter Notebook bisa dilihat disini.

Untuk mendapatkan data yang sesuai dengan format yang kita tentukan, maka kita perlu tau logic dibaliknya. Setelah kita melakukan parsing URL tersebut menggunakan BeautifulSoup, maka selanjutnya

--

--

Data Scientist Jagoan Hosting. Visit my website at www.arofiqimaulana.com

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store