Coba kalian bayangin gimana cara orang dengan multiple source of income ngetrack pendapatan hariannya dari website yang berbeda? Misal Andrea, seorang youtuber, tapi juga punya saham dan jual lipstik di e-commerce.
Kalau Andrea mau ngetrack berapa sih pendapatannya dalam sehari, dia harus cek di 3 website yang berbeda dong: youtube, sekuritas, dan website e-commerce. Misalkan untuk cek 3 website tersebut dan ngitung berapa pendapatan hariannya butuh 10 menit,
Dalam setahun Andrea udah ngabisin 3560 menit atau setara dengan 2,5 hari cuma buat ngitung berapa pendapatan hariannya. Buang waktu banget kan?
Terus gimana caranya biar Andrea bisa langsung secara otomatis liat pendapatan harian dia dari 3 website itu tanpa harus ngebuka satu satu websitenya?
Web scraping adalah solusinya! Dengan web scraping, Andrea ga usah lagi buka ketiga website itu buat nyari tau pendapatan hariannya berapa.
Singkatnya, web scraping adalah sebuah metode buat mengumpulkan informasi, entah itu angka, teks, tabel, dll dari berbagai website menggunakan sebuah software yang bisa menyimpan dan mengatur informasi yang telah di download.
Jadi kita udah ga perlu lagi deh copy paste informasi dari website A ke misal spreadsheet, terus copy paste lagi dari website B ke spreadsheet. Tinggal pake web scraping dan tadaaa, semuanya all set
Metode ini bisa jadi alternatif bagi kalian yang ingin mencari data dengan cepat dan murah. Maksudnya gini, kalau kalian mau ngumpulin data dengan metode konvensional kaya melalui survey, observasi, itu kan butuh waktu dan biaya yang banyak
Nah, web scraping ini bisa jadi alternatifnya. Seperti yang kita semua tau, di jaman sekarang internet udah jadi salah satu sumber informasi yang cukup lengkap. Jadi web scraping ini bisa membantu kita memudahkan nyari data deh
Biasanya web scraping ini digunakan buat apa sih?
Pertama, web scraping itu bisa banget digunakan untuk melakukan price intelligence. Caranya dengan mengambil data produk dan harga dari berbagai sumber, misal e-commerce atau dari kompetitor.
Kita bisa bandingin harga barang yang dijual sama kompetitor biar kita bisa netapin harga / melakukan marketing berdasarkan data yang ada
Kedua, web scraping bisa ngebantu kita buat ngelakuin market research. Berguna banget nih buat business intelligence. Kita jadi bisa liat gimana market trend, market pricing, research and development, dan tentunya memonitor kompetitor.
Ketiga, bisa buat monitoring berita. Misalkan bisnis kalian tuh sering diberitakan di media, nah web scraping ini bisa berguna buat nge agregasi berbagai sumber yang ngeberitain bisnis kalian dan menganalisis sentimen publik terhadap berita itu
Bahkan, bisa juga buat nganalisis persepsi publik terhadap suatu kebijakan dengan nge scraping sosial media. Dan masih banyak lagi deh kegunaan dari web scraping ini
Oke, sekarang kita udah tau beberapa penerapan dari web scraping. Terus gimana cara ngelakuinnya?
Seperti yang udah mimin tadi sebutin, web scraping ini membutuhkan software kan. Jadi, pastinya, pertama tama kalian harus tentuin dulu software web scraping apa yang ingin kalian gunakan.
Ada berbagai pilihan software yang bisa kalian gunakan, misalnya Selenium, Beautiful Soup, Scrapy, dan lain lain.
Kedua, tentukan juga data yang dibutuhkan ini mau diambil dari website mana aja sih. Setelah itu, software web scraping yang kita pakai ini bakal minta request HTML dari website tersebut.
Kalau website yang kita mau ini udah nerima request nya dan udah diproses, biasanya data yang kita minta ini akan dikirimkan ke software web scraping yang kita pakai.
Format data yang akan kita dapatkan ini ada berbagai macam, bisa dari HTML, XML, JSON, atau bahkan dalam bentuk multimedia seperti video, audio, dan gambar.
Walaupun terdengar mudah, ada tantangan juga yang harus dihadapi ketika menggunakan web scraping.
Masalah yang sering ditemui ketika melakukan web scraping adalah struktur website yang di update. Tools yang kita gunakan buat ngambil informasi dari spesifik website ga bisa bekerja dengan struktur baru website tersebut.
Maka dari itu, kita harus make sure code yang kita pakai itu cukup fleksibel buat beradaptasi sama perubahan struktur sebuah website
Tantangan lain yang ditemui adalah masalah legalitas dari web scraping. Sebuah web scraper bisa mengcopy data dari sebuah website tanpa adanya pelanggaran hak cipta. Susah buat nunjukin hak cipta dari sebuah data karena hanya ada beberapa data yang dilindungi secara hukum.
Walaupun beberapa website punya forms terms of service (ToS), lingkup dari ToS ini sering kali ada di ‘grey area’ gituu. Nah, makanya ada juga kasus dimana pengguna web scraper berargumen kalau dia ga pernah melihat atau menyetujui ToS ini secara resmi.
Kira kira gitu guys sedikit mengenai web scraping. Semoga kalian bisa memanfaatkan metode ini dengan bijak yaa!
Oh iya, kalian juga bisa explore lebih banyak lagi tentang machine learning di non degree program Data Scientist / Business Intelligence Pacmann.AI. Kepoiin kurikulimnya di bit.ly/brosurpacmannai yaa 🤩🤩🤩
Atauu kalian bisa langsung daftarin diri di bit.ly/PendaftaranNon…. Yuk, mumpung masih ada potongan hingga 500k loh untuk 10 pendaftar pertama di batch 3! Jangan sampai kelewatan!
Critical thinking for Data Scientist, why is it important and how to develop it🧠
.
.
.
A thread
Pernah nggak kamu left grup WA karena bete sama orang yang suka share-share berita hoax yang nggak jelas asalnya dari mana? Nah mungkin, orang itu belum tau soal Critical Thinking 🙂
Critical thinking sebenarnya basic skill yang harus dimiliki oleh semua orang, tapi ada alasan kenapa skill ini jadi penting banget buat seorang Data Scientist, di luar hardskill yang selama ini udah sering kamu dengar.
Akurasi bagus nggak menjamin modelnya pasti bagus juga. Kok bisa?
Confusion Matrix: In a Nutshell
.
.
.
A thread
Suatu hari, seorang data scientist diminta klien dari sebuah rumah sakit untuk membangun sebuah model machine learning yang bisa mendeteksi dini adanya gejala tumor otak pada pasien balita
Lalu singkat cerita, data selesai di preprocessing dan modeling selesai. Pertanyaannya, kira-kira gimana cara si DS bisa mengukur performa modelnya? Cukupkah akurasi yang tinggi bisa membuat dia bilang ke klien kalau modelnya ‘works well’?
Awas terciduk melanggar aturan lalu lintas sama AI 🚨⚠️
Penerapan Genetic Algorithm
.
.
.
A thread
Udah pada tau belom nihh kalau sekarang di Indonesia udah nerapin tilang elektronik? Jadi walaupun ga ada polisi lalu lintas, kalian tetap bisa keciduk loh kalau melakukan pelanggaran 😅
Loh, kok ga ada polisi tapi bisa ketilang? Emangnya siapa deh yang ngawasin?
Mengembangkang produk Machine Learning di dalam perusahaan (Part II): Feature Engineering Principal
.
.
.
A Thread
Haloo guys kali ini kita bakal lanjut nih bahas hal-hal yang dibutuhin buat mengembangkan produk machine learning di perusahaan, yukk ikutin !
Di thread ini mimin akan menjelaskan fase lanjutan setelah kemarin kita bahas Machine Learning Pipeline. Eits bagi yang ketinggalan jangan sedih, bisa langsung cek disini nihh
Naikin sales dengan prediksi konsumen yang hamil 🤰
.
.
.
A thread
Mimin yakin kita semua setuju deh kalau bisnis bisa banget naikin sales nya dengan melakukan consumer analytics. Dulu mimin udah pernah bahas nih tentang consumer analytics, kalian bisa cek disini yaa