#GaliData 4: Web Scraping
.
.
A thread
Coba kalian bayangin gimana cara orang dengan multiple source of income ngetrack pendapatan hariannya dari website yang berbeda? Misal Andrea, seorang youtuber, tapi juga punya saham dan jual lipstik di e-commerce.
Kalau Andrea mau ngetrack berapa sih pendapatannya dalam sehari, dia harus cek di 3 website yang berbeda dong: youtube, sekuritas, dan website e-commerce. Misalkan untuk cek 3 website tersebut dan ngitung berapa pendapatan hariannya butuh 10 menit,
Dalam setahun Andrea udah ngabisin 3560 menit atau setara dengan 2,5 hari cuma buat ngitung berapa pendapatan hariannya. Buang waktu banget kan?
Terus gimana caranya biar Andrea bisa langsung secara otomatis liat pendapatan harian dia dari 3 website itu tanpa harus ngebuka satu satu websitenya?
Web scraping adalah solusinya! Dengan web scraping, Andrea ga usah lagi buka ketiga website itu buat nyari tau pendapatan hariannya berapa.
Singkatnya, web scraping adalah sebuah metode buat mengumpulkan informasi, entah itu angka, teks, tabel, dll dari berbagai website menggunakan sebuah software yang bisa menyimpan dan mengatur informasi yang telah di download.
Jadi kita udah ga perlu lagi deh copy paste informasi dari website A ke misal spreadsheet, terus copy paste lagi dari website B ke spreadsheet. Tinggal pake web scraping dan tadaaa, semuanya all set
Metode ini bisa jadi alternatif bagi kalian yang ingin mencari data dengan cepat dan murah. Maksudnya gini, kalau kalian mau ngumpulin data dengan metode konvensional kaya melalui survey, observasi, itu kan butuh waktu dan biaya yang banyak
Nah, web scraping ini bisa jadi alternatifnya. Seperti yang kita semua tau, di jaman sekarang internet udah jadi salah satu sumber informasi yang cukup lengkap. Jadi web scraping ini bisa membantu kita memudahkan nyari data deh
Biasanya web scraping ini digunakan buat apa sih?
Pertama, web scraping itu bisa banget digunakan untuk melakukan price intelligence. Caranya dengan mengambil data produk dan harga dari berbagai sumber, misal e-commerce atau dari kompetitor.
Kita bisa bandingin harga barang yang dijual sama kompetitor biar kita bisa netapin harga / melakukan marketing berdasarkan data yang ada
Kedua, web scraping bisa ngebantu kita buat ngelakuin market research. Berguna banget nih buat business intelligence. Kita jadi bisa liat gimana market trend, market pricing, research and development, dan tentunya memonitor kompetitor.
Ketiga, bisa buat monitoring berita. Misalkan bisnis kalian tuh sering diberitakan di media, nah web scraping ini bisa berguna buat nge agregasi berbagai sumber yang ngeberitain bisnis kalian dan menganalisis sentimen publik terhadap berita itu
Bahkan, bisa juga buat nganalisis persepsi publik terhadap suatu kebijakan dengan nge scraping sosial media. Dan masih banyak lagi deh kegunaan dari web scraping ini
Oke, sekarang kita udah tau beberapa penerapan dari web scraping. Terus gimana cara ngelakuinnya?
Seperti yang udah mimin tadi sebutin, web scraping ini membutuhkan software kan. Jadi, pastinya, pertama tama kalian harus tentuin dulu software web scraping apa yang ingin kalian gunakan.
Ada berbagai pilihan software yang bisa kalian gunakan, misalnya Selenium, Beautiful Soup, Scrapy, dan lain lain.
Kedua, tentukan juga data yang dibutuhkan ini mau diambil dari website mana aja sih. Setelah itu, software web scraping yang kita pakai ini bakal minta request HTML dari website tersebut.
Kalau website yang kita mau ini udah nerima request nya dan udah diproses, biasanya data yang kita minta ini akan dikirimkan ke software web scraping yang kita pakai.
Format data yang akan kita dapatkan ini ada berbagai macam, bisa dari HTML, XML, JSON, atau bahkan dalam bentuk multimedia seperti video, audio, dan gambar.
Walaupun terdengar mudah, ada tantangan juga yang harus dihadapi ketika menggunakan web scraping.
Masalah yang sering ditemui ketika melakukan web scraping adalah struktur website yang di update. Tools yang kita gunakan buat ngambil informasi dari spesifik website ga bisa bekerja dengan struktur baru website tersebut.
Maka dari itu, kita harus make sure code yang kita pakai itu cukup fleksibel buat beradaptasi sama perubahan struktur sebuah website
Tantangan lain yang ditemui adalah masalah legalitas dari web scraping. Sebuah web scraper bisa mengcopy data dari sebuah website tanpa adanya pelanggaran hak cipta. Susah buat nunjukin hak cipta dari sebuah data karena hanya ada beberapa data yang dilindungi secara hukum.
Walaupun beberapa website punya forms terms of service (ToS), lingkup dari ToS ini sering kali ada di ‘grey area’ gituu. Nah, makanya ada juga kasus dimana pengguna web scraper berargumen kalau dia ga pernah melihat atau menyetujui ToS ini secara resmi.
Kira kira gitu guys sedikit mengenai web scraping. Semoga kalian bisa memanfaatkan metode ini dengan bijak yaa!
Oh iya, kalian juga bisa explore lebih banyak lagi tentang machine learning di non degree program Data Scientist / Business Intelligence Pacmann.AI. Kepoiin kurikulimnya di bit.ly/brosurpacmannai yaa 🤩🤩🤩
Atauu kalian bisa langsung daftarin diri di bit.ly/PendaftaranNon…. Yuk, mumpung masih ada potongan hingga 500k loh untuk 10 pendaftar pertama di batch 3! Jangan sampai kelewatan!

👇🏼👇🏼👇🏼👇🏼

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Follow us on instagram: @pacmannai

Follow us on instagram: @pacmannai Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @pacmannai

30 Mar
Critical thinking for Data Scientist, why is it important and how to develop it🧠
.
.
.
A thread
Pernah nggak kamu left grup WA karena bete sama orang yang suka share-share berita hoax yang nggak jelas asalnya dari mana? Nah mungkin, orang itu belum tau soal Critical Thinking 🙂
Critical thinking sebenarnya basic skill yang harus dimiliki oleh semua orang, tapi ada alasan kenapa skill ini jadi penting banget buat seorang Data Scientist, di luar hardskill yang selama ini udah sering kamu dengar.
Read 37 tweets
29 Mar
Akurasi bagus nggak menjamin modelnya pasti bagus juga. Kok bisa?
Confusion Matrix: In a Nutshell
.
.
.
A thread
Suatu hari, seorang data scientist diminta klien dari sebuah rumah sakit untuk membangun sebuah model machine learning yang bisa mendeteksi dini adanya gejala tumor otak pada pasien balita Image
Lalu singkat cerita, data selesai di preprocessing dan modeling selesai. Pertanyaannya, kira-kira gimana cara si DS bisa mengukur performa modelnya? Cukupkah akurasi yang tinggi bisa membuat dia bilang ke klien kalau modelnya ‘works well’?
Read 42 tweets
29 Mar
Guys mimin dapat pertanyaan bagus dari banyak teman-teman yang mau S2 Machine Learning.

Kalian ada saran S2 ML di manakah yang favorit di luar negeri?

Mimin tahu yang bagus dari publikasinya doang, kurang dari sisi proses belajar.

Mungkin yang alumni mau kasih saran?
Mimin suka sih sama ML CMU
ml.cmu.edu

Tapi gak tahu gimana rasanya sekolah di sana. Mas @ardyadipta mau kasih testimoni, kah?
Yang bagus yang lain, yang fokus ML ya.... bukan program CS tapi ada ML nya.

Edinburgh Msc Artificial Intelligence
ed.ac.uk/studying/postg…

Mas @aliakbars bolehkah minta testimoninya?
Read 4 tweets
28 Mar
Awas terciduk melanggar aturan lalu lintas sama AI 🚨⚠️
Penerapan Genetic Algorithm
.
.
.
A thread
Udah pada tau belom nihh kalau sekarang di Indonesia udah nerapin tilang elektronik? Jadi walaupun ga ada polisi lalu lintas, kalian tetap bisa keciduk loh kalau melakukan pelanggaran 😅
Loh, kok ga ada polisi tapi bisa ketilang? Emangnya siapa deh yang ngawasin?
Read 42 tweets
27 Mar
Mengembangkang produk Machine Learning di dalam perusahaan (Part II): Feature Engineering Principal
.
.
.
A Thread
Haloo guys kali ini kita bakal lanjut nih bahas hal-hal yang dibutuhin buat mengembangkan produk machine learning di perusahaan, yukk ikutin !
Di thread ini mimin akan menjelaskan fase lanjutan setelah kemarin kita bahas Machine Learning Pipeline. Eits bagi yang ketinggalan jangan sedih, bisa langsung cek disini nihh
Read 31 tweets
26 Mar
Naikin sales dengan prediksi konsumen yang hamil 🤰
.
.
.
A thread
Mimin yakin kita semua setuju deh kalau bisnis bisa banget naikin sales nya dengan melakukan consumer analytics. Dulu mimin udah pernah bahas nih tentang consumer analytics, kalian bisa cek disini yaa
Kalau kemarin kita bahas gimana sih caranya pakai consumer analytics, sekarang saatnya kita lihat contoh kesuksesan penggunaan consumer analytics ini.
Read 40 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!