Butuh kedewasaan untuk mengakui pekerjaan kita gak perlu pakai model/tool yang paling canggih.
Butuh kedewasaan untuk mengakui model yang dibutuhkan gak njlimet pakai Deep Learning Transformers, tapi pakai Logistic Regression aja bisa.
Menurut gue ini penyakit semua orang yang baru masuk ke industry ya, terlepas industry nya apa aja.
Gue juga dulu pas kerja pertama jadi DS di 2015, semua model mau gue deeplearning-kan-saja-semua.
Namun ya gue ke sini mikirnya adalah bikin model yang:
1. Mudah 2. Sederhana 3. Cepat 4. Gampang lo debug 5. Gampang di-tuning, yang ini adalah hasil diskusi dengan teman kemarin di suatu kantor berita.
Kalian ada yang punya pengalaman sama gak bikin model seperti ini?
Requirement nya njlimet tapi ternyata bisa diselesaikan dengan metode sederhana?
Kalau topik ini menarik, gue mau jadikan diskusi Spaces nanti malam jam 20.30 WIB.
Kedewasaan Modeling: Tidak Mengejar yang Paling Shinny/Baru, Namun Mengejar Kesederhanaan.
DS di perusahaan ABC:
Iya gue pakai Xgboost buat bikin credit scoring, hasilnya mantab!
Gue:
Lo udah deploy? Kalau datanya diubah dikit hasilnya berubah sesuai common sense gak? Emang lo bisa maintain? Bisa diinterpretasi sama user? Udah coba Logistic Regression?
Emangnya kenapa sih gak mau pakai model sederhana kayak Logistic Regression?
Situ takut gak pakai Deep Learning, berarti gak pakai AI?
Gaji situ nurun kalau pakai Statistics?
Pacar situ malu kalau situ gak pakai Deep Learning?
• • •
Missing some Tweet in this thread? You can try to
force a refresh
Mau punya model bagus tapi datanya imbalanced? 😢🤷♂️
Catat 3 solusinya!
.
.
.
A thread
Suatu hari, kita diminta klien membangun model machine learning yang bisa mendeteksi tumor ganas pada lambung pasien. Kemudian, dengan memakai dataset berisi kumpulan CT-Scan perut, kita buat model yang memprediksi apakah seorang pasien menderita kanker lambung atau tidak.
Tapi masalahnya, ‘Gastric cancer’ atau kanker lambung ini tergolong sangat jarang temen-temen. Bahkan di Indonesia, resikonya itu cuma sekitar 0.0028%. Itu artinya, kalau kita sampling 100.000 orang, kemungkinannya kita cuma akan peroleh 3 sampel data penderita kanker lambung!
Enam alasan kenapa project DS sering gagal. 🥲🤦
Jangan sampai terjerumus ke 6 penyebab ini!
.
.
.
A thread
Pernah gak sih udah cape-cape begadang berminggu-minggu bikin model tapi kok ga selesai-selesai? Atau mungkin modelnya udah jadi tapi ternyata ga memberikan insight sesuai yang diminta atasan? 🥲🥲🥲
Yaa, kita semua setuju lah ya hal-hal di atas jadi nightmare banget, dan sebisa mungkin kita mau menghindari project menjadi gagal. Nah, makanya di thread kali ini, mimin mau bahas beberapa alasan yang bisa menyebabkan project kita fail. Langsung aja ke alasan yang pertama
Udah buat program tapi bingung evaluasinya gimana?🧐🤔
Pakai Difference in Difference aja!
.
.
.
A thread
Mimin yakin tempat kerja kalian pasti pernah membuat program baru / keputusan krusial. Setelah membuat program baru ini, tentunya ada outcome yang diharapkan dong, kalau ga ya ngapain repot-repot bikin program?
Yang menjadi pertanyaan adalah, gimana caranya kita tau kalau program ini memiliki dampak yang signifikan?
Katanya mau jadi Data Scientist, tapi masih takut statisik? 🤨😱
Kenalan sama basicnya dulu yuk!
.
.
.
A thread
Hayoo siapa yang disini lagi mau banting setir buat ngerambah dunia perdataan dan jadi Data Scientist?
Kalau kamu udah mau menyelami profesi ini, ada baiknya nih tau dulu kira kira kamu bakal berurusan sama apa sih ketika jadi DS nanti? Biar kebayang, kamu bisa liat diagram venn dibawah ini nih:
Central Limit Theorem: kenyataan pahit yang ga semua orang tahu📊
Introduction to Cauchy Distribution
.
.
.
A thread
Central limit theorem? Hmm.. udah sering banget ga sih denger teorema ini? Tapi kalo Cauchy Distribution, udah pada tau belum, nih?
Central Limit Theorem itu kan bunyinya gini: distribusi dari rata-rata sampel variabel acak yang gak di-generate dari dist Gaussian biasanya akan jadi Gaussian kalo misalnya ukuran sampelnya cukup besar.
Coba tebak-tebakan dulu: Berapa sih gaji Data Scientist di Indonesia?
Sebenernya, ketiga opsi itu nggak ada yang salah guys HEHE. Soalnya, penentuan gaji seseorang bakal dipengaruhi oleh banyak hal, meski punya titel sama sebagai ‘Data Scientist’.