Data Scientist Tapi Manipulasi Statistik? Haram, Boss!🤷🤦‍♀️
Manipulasi Statistik: Kesalahan Fatal yang Dilakukan Data Scientist.

.
.
A thread
Seperti yang kita semua tau, data itu penting buat dijadikan acuan untuk mengambil keputusan. Tapi sebelum kita bisa membuat kesimpulan dari data yang dimiliki, ada proses panjang yang harus dilewati nih, dan tentu aja proses tersebut juga rawan dari kesalahan.
Sebagai seorang Business Intelligence dan Data Scientist, kita harus menghindari kesalahan - kesalahan yang fatal yang berujung membuat data dan kesimpulan yang dibuat jadi misleading alias menyesatkan.
Coba bayangin kalau ngambil keputusan berdasarkan data yang salah, bisa fatal banget guys
Nah, biar kalian ga terjerumus dalam dosa besar seorang Data Scientist, di thread kali ini mimin bakal kenalin sama kesalahan apa aja sih yang mungkin terjadi di awal proses ngumpulin data sampai proses terakhirnya, yaitu interpretasi data
Secara umum, kegiatan yang dilakukan Data Scientist dan Business Intelligence bisa dibagi jadi 3, yaitu proses Pengumpulan, Mengolah, dan Mengkomunikasikan Data. Dari 3 proses ini, ada beberapa kesalahan fatal yang mungkin dilakukan, kesalahannya bisa kalian lihat di gambar ini:
Kita akan bahas per prosesnya yaa 🤩
(1) Generating Data / Pengumpulan Data.
Kesalahan yang bisa dilakukan di tahap ngumpulin data ada 3 nih, yang pertama itu ada bad / biased sampling. Maksudnya adalah data sampel yang kita ambil tuh ga random, jadinya ga mencerminkan populasi dan berujung ke misleading interpretation deh.
Ada contoh terkenal dari bad / biased sampling ini. Kejadiannya terjadi pas pemilu presiden US tahun 1948. Yaa biasalah, kalo lagi pemilu gini kan pasti banyak media yang ngadaiin survey dan buat prediksi kira kira siapa yang menangin pemilu.
Gitu juga dengan Chicago Tribune. Di zaman itu kan belom bisa polling lewat internet ya, jadinya Chicago Tribune melakukan survey lewat telfon untuk memprediksi hasil pemilu. Hasilnya dari prediksi Chicago Tribune adalah Thomas E. Dewey memenangkan pemilu.
Lah tapi pas hasil aslinya keluar, ternyata si Harry S. Truman lah yang menang, bukan Dewey. Lho lho, kok bisa beda gini yaa, ada yang bisa nebak kenapa?
Yep, sampel survey Chicago Tribune ini ga random, dan menjurus ke kelompok kelas atas aja. Tahun segitu kan hp adalah barang elit dan cuma dimiliki kalangan yang pendapatannya udah ++ aja. Nih foto Truman (kiri) megang koran Chicago Tribune yang beritaiin kalau dia kalah pemilu.
Oke, kita lanjut kesalahan kedua dalam pengumpulan data, yaitu membuat pertanyaan yang tidak sesuai dengan objektif penelitian. Contoh gini, kita mau buat obat yang bisa ngurangin jumlah waktu yang di spend buat Facebook.
Kita butuh data dong untuk meyakinkan kita kalau ‘oh ternyata orang orang screen time di Facebooknya tinggi banget’ dan memang obat itu diperlukan. Tapi, ketika ngelakuin survey, kita malah nanya “Berapa lama waktu yang anda habiskan untuk bermain sosial media”
Ya hasil screentime facebook kalau dibandingin screentime seluruh sosial media kan udah pasti tinggian sosial media, nah ini jadi menimbulkan kesan kalau ternyata kita emang butuh obat biar orang-orang bisa ngurangin screentime Facebook.
Padahal bisa aja yang ngisi survey itu main sosmed 5 jam, 4 nya dipake buat twitteran dan 1 jam nya buat main facebook. Kan jadi ngaco kesimpulan kita. Jadi intinya adalah, jangan sampai pertanyaan kalian ini keluar konteks dari tujuan penelitian yaa.
Oke, lanjut yang ketiga: faulty polling. Ini adalah pertanyaan yang mempengaruhi jawaban para sampel dari perspektif tertentu. Coba bandingin pertanyaan: “Menurut anda, apakah kita harus membantu negara berkonflik untuk mempertahankan kebebasan dan demokrasinya”
Dengan pertanyaan “Menurut anda, harusnya militer negara kita bertempur untuk melawan pemerintah negara berkonflik yang melarang demokrasi?”. Ini kan 2 perspektif yang berbeda banget dan cenderung mempengaruhi jawaban si responden
(2) Kesalahan di Processing Data
Setelah kita udah dapat data yang dibutuhkan, langkah selanjutnya adalah mengolah data-data tersebut. Nah, dalam mengolah data, ada beberapa kesalahan yang harus kita hindari. Yang pertama adalah cherry picking.
Cherry picking ini tuh berasal dari terminologi kalau kita metik buah cherry, kita cuma ambil yang buahnya bagus aja, jadi kesannya seluruh buah cherry yang ada tuh emang berkualitas bagus. Nah, gitu juga dengan cherry picking dalam data science.
Cherry picking ini berarti kita nutup mata akan data yang buruk dan cuma ambil yang bagusnya aja, alias yang sesuai sama tujuan akhir kita. Contohnya, tadi kita mau buat obat yang bisa nurunin screentime Facebook. Setelah obatnya jadi, kita mau nguji apakah obat itu efektif / ga
Misalkan dari 100 orang yang minum obat, hanya 10 orang yang berhasil nurunin screen timenya. Terus kita malah buat laporan “10 Orang Berhasil Menurunkan Screentime Facebook Setelah Meminum Obat Ini”, ya gak salah sih, tapi kan jadi misleading
Kita cuma ngeliat 10 orang yang berhasil ini, tapi nutup mata sama 10 orang lain yang screentime nya malah jadi nambah dan 80 sisanya yang screentimenya ga berubah. Nah, ini big no banget sih guys. Kalau masih sering ngelakuin cherry picking yuk stop
Selain cherry picking, kesalahan dalam mengolah data yang sering ditemui adalah tidak melakukan uji signifikansi. Uji ini berguna buat ngeliat gimana perbedaan antara actual value dengan hasil test kita itu terjadi tidak disebabkan oleh error / random chance
Lalu kesalahan ketiga adalah data dredging atau p-hacking. Maksudnya kita ga melakukan uji hipotesis ketika menganalisis sebuah dataset.
(3) Kesalahan dalam mengkomunikasikan hasil analisis
Kesalahan pertama dalam proses ini adalah ketika melakukan data visualization, yaitu dengan memulai Y Axis tidak dari angka 0. Akibatnya perbedaan antar data jadi dilebih lebihkan, contohnya bisa kalian liat di gambar ini:
Terus masih banyak juga kesalahan lain yang bisa terjadi ketika membuat visualisasi data, contohnya nge omit data yang jelek buat divisualisasikan, terus inappropriate scaling, dll. Nah, biar ga melakukan kesalahan dalam membuat data vis, cek thread ini ya
Lalu selain data viz, kesalahan kedua yang dapat terjadi adalah membuat kesimpulan yang salah. Hal ini bisa terjadi karena adanya false causality. Misal gini, kita udah menjual obat buat nurunin screentime Facebook di pasar sejak bulan November 2020.
Eh terus ketika kita ngeliat data screentime Facebook di bulan November sampai Desember, trendnya cenderung menurun, dan kita simpulkan kalau obat yang kita jual ini emang nurunin screentime orang main Facebook.
Nah ini salah total, padahal bisa aja trendnya menurun karena itu udah memasuki akhir taun dan orang orang udah mulai liburan. Ketika liburan orang orang cenderung habisin waktu mereka sama orang-orang terdekat dibandingkan main Facebook.
Terus gimana caranya biar kita ga terjerumus ke false causality ini? Coba tanyakan ke diri sendiri ketika lagi liat hasil analisa “Hasilnya memang seperti ini atau memang ada penjelasan lain dari fenomena ini?
Kesalahan terakhir adalah dengan menutupi context / hasil analisa. Kan pembaca laporan kita itu pengen tau informasi penting dari hasil penelitian. Tapi, kalau kita menyampaikan banyak informasi ga penting / ga relevan, mereka jadi kesulitan buat nangkep informasi terpentingnya
Setelah kita tau apa aja sih yang bisa menyebabkan seorang DS manipulasi data, kita jadi tau nih ternyata manipulasi statistik itu bahaya banget buat pengambilan keputusan. Maka dari itu, penting bagi DS buat belajar statistik.
Sadar statistik itu ilmu krusial dalam dunia per DS-an, makanya Pacmann.AI ngadaiin webinar GRATIS tentang kenapa harus jago statistik untuk jadi DS. Webinarnya diadaiin besok banget, 9 April 2021, segera daftarkan diri kalian di bit.ly/PendaftaranPac… yaa!

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Follow us on instagram: @pacmannai

Follow us on instagram: @pacmannai Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @pacmannai

9 Apr
Buat apa bisa regresi tapi ga bisa intepretasiin hasilnya?🙄🤯
Yuk belajar interpretasi hasil regresi!
.
.
.
A thread
Misalkan kalian kerja di produk pulpen, terus bos kalian minta buat sales bulan depan harus ningkat sekian persen atau kalian bakal dipecat. Berarti, kalian harus tau dulu dong faktor faktor apa yang mempengaruhi sales pulpen.
Dengan kemajuan ilmu yang kita punya sekarang, udah ga perlu lagi nganalisa data secara manual. Kalian bisa pakai regresi, metode buat nyari hubungan antara variabel yang punya hubungan dengan topik yang mau diteliti.
Read 34 tweets
9 Apr
Lo pikir kebijakan yang lo buat bakal berdampak, yakin? 🤔🤨
Kenalan dulu sama theory of change!
.
.
.
A thread
Semua orang pasti punya tujuan, mau itu jangka panjang atau jangka pendek. Tentunya, buat mencapai tujuan-tujuan itu, ada tindakan yang harus dilakukan. Tapi, belum tentu semua tindakan itu bakal berhasil dan bisa mencapai tujuan akhir. Kan wajar hidup ada gagalnya, ya gak?~
Konsep ‘punya tujuan → lakukan tindakan → mencapai tujuan / tidak mencapai tujuan’ ini sebenarnya bisa diterapkan dalam pengambilan keputusan. Ada teori bernama ‘theory of change’ yang bisa kalian terapin, entah itu buat tujuan pribadi, bisnis, atau bahkan negara
Read 41 tweets
9 Apr
Kalau mimin bikin Datacamp versi Indonesia laku gak ya?

Subscription nya misal Rp 150.000 per bulan.
Fasilitas:

- Bisa ngoding di platform.
- Ada video nya.
- Materinya dari basic sampai Adv.
Yes ada kurikulum nya jelas dari awal sampai adv.

Read 4 tweets
8 Apr
Dadah insomnia, halo tidur nyenyak 💤😴
Intro to monte carlo simulation
.
.
.
A thread
Halo semua! Pernah denger nama Monte Carlo gak, nih? Yang kalian tau, monte carlo itu apa, sih?
Buat yang jawab Monte carlo itu kota casino di Monaco, kalian bener banget! Tapi bukan berarti yang jawab algoritma itu salah, loh. Monte carlo yang bakal kita obrolin itu ditemuin sama Stanslaw Ulam yang lagi ngerjain “Manhattan Project”. ImageImage
Read 29 tweets
7 Apr
Ingin ini, ingin itu, banyak sekali~ 🎶💸
Kebanyakan BM Tapi Duit Terbatas? Pareto Optimal Solution Bisa Jadi Solusinya!
.
.
.
A Thread
Sebagai seorang manusia, menurut kalian wajar ga sih kita banyak maunya?
Misalnya pas lagi laper dan mau nentuin mau makan apa, kita maunya makanan yang paling enak tapi dengan harga yang paling murah
Read 32 tweets
6 Apr
Mantau Lokasi Buronan dari Plat Mobil, Gimana Caranya? 🚔🚨
.
.
.
A thread
Di masa sekarang ini, teknologi di bidang lalu lintas semakin berkembang. Seperti Electronic Road Pricing (ERP), Seat-Belt Violation Detection, Speed Violation Detection, Red Light Violation Detection, dan masih banyak lagi
Nah ada satu lagi nih yang bakal kita bahas tentang salah satu teknologi lalu lintas, yaitu Plate Recognition
Read 33 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!