Menurut gue kebanyakan Data Scientist terlalu mikirin curve fitting dan optimisasi metrics berlebihan tanpa mikirin modeling. Makannya sering kurang berguna di perusahaan.

Gue berikan contoh kasus ya.
Kebanyakan hanya memikirkan:
1. Modelnya supervised atau unsup (meh..)
2. Metrics nya apa (meh...)

Lalu dilakukan development dalam 6 bulan, kemudian modelnya tidak bisa menjawab pertanyaan bisnis.
IMO curve fitting itu hal termudah yang dilakukan oleh DS dan biasanya hanya 5% dari pekerjaan. Pekerjaan utamanya adalah membuat modeling.

Bedakan modeling dengan fitting-fitting pakai sklearn/keras/pytorch.
Modeling memikirkan:
1. Apa yang harus dilakukan fitting
2. Cost function nya apa
3. Constraint nya apa
4. Apa task yang harus dilakukan.
Misal nih gue kasih kasus:

Perusahaan G&P memiliki cara untuk meningkatkan salesnya dengan mengirimkan salesman ke toko-toko yang menjual product P&G. Jumlah salesman lebih kecil dibanding toko-toko yang ditelusuri, maka dibutuhkan sistem untuk melakukan ranking prioritas.
Q1: Model apa yang harus dibuat?
A1: Model yang harus dibuat adalah sebuah model yang menghubungkan antara proses salesman visit ke toko dengan revenue yang didapat.

Iya dong, semua model harus lo lock ke business metrics.
Q2: Apa yang harus diukur?
A2: Yang harus diukur adalah pertambahan sales yang diterima perusahaan jika salesman A visit ke toko 123.

Delta Sales = f(visit) - f(tidak_visit)
Q3: Apa task dari modeling yang harus dilakukan?
A3: Task nya adalah melakukan estimasi delta visit/tidak_visit ke sales. Maka bentuknya adalah beta dari linear regression dari input binary (0/1) visit/tidak_visit.
Saran untuk yang lain, pikirkan ML/Stats task apa yang yang harus dilakukan untuk sebuah modeling. Jangan cuma mikrin supervised/unsup doang, gak ada gunanya.
Q4: Gimana cara modeling nya?
A4: Cara modelingnya adalah membuat estimasi Bayesian Hierarchical modeling, dengan mencoba estimasi perbedaan koefisien dari linear model dari setiap toko yang dikunjungi. Jadi beta visit/tidak_visit ada sejumlah toko.

docs.pymc.io/notebooks/mult…
Q5: Apa constraint dari modelingnya?
A5: Constraint nya adalah setiap toko minimal harus pernah di-visit sekali. Uncertainty level dari estimasinya juga bergantung dari jumlah berapa kali sudah divisit.
Q6: Lalu orang bisnis akan dapat apa?
A6: Akan dapat list toko mana yang kalau di-visit akan meningkatkan sales terbesar bagi perusahaan.

Selesai. Ada pertanyaan?

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Follow us on instagram: @pacmannai

Follow us on instagram: @pacmannai Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @pacmannai

14 Feb
Bagaimana cara membuat pricing model?

Thread kecil, pembahasan dari kasus sebelumnya.
Mari kita mulai pembahasan dengan restate kasus kita:
Toko Selular Nusantara menjual telepon selular bekas di e-commerce lokal. Toko ini merasa penentuan harganya terkadang terlalu murah, terkadang terlalu mahal. Toko tersebut memiliki data: 1) jenis hape, 2) harga, 3) terjual atau tidak, 4) kondisi hape.
Read 25 tweets
13 Feb
Hallo semuanya selamat siang! Gimana nih hari kedua long weekend pertama kalian di 2021 ini?! Seru gaaak?
Yuk kita manfaatkan long weekend ini sebagai kesempatan buat recharge diri dari segala tekanan pekerjaan biar ga kena workplace stress. Apalagi di tengah pandemi kaya gini dan terutama yang wfh jadi lebih mudah stress karena tekanan pekerjaan, ya gak sih?
Sebenarnya memang wajar sih kalau lebih mudah stress saat wfh. Penelitian juga membuktikan kok kalau penggunaan handphone maupun komputer membuat kita terkoneksi dengan pekerjaan lebih dari sebelumnya, akibatnya kita lebih mudah mengalami tekanan pekerjaan dan berujung ke stress.
Read 19 tweets
11 Feb
PERTUMBUHAN EKONOMI BISA DIHITUNG MENGGUNAKAN CAHAYA?!
.
.
.
A Thread
Produk Domestik Bruto atau yang biasa disingkat dengan ‘PDB’ merupakan nilai pasar seluruh barang dan jasa yang diproduksi oleh suatu negara pada periode tertentu. Nilai ini juga menunjukkan jumlah pendapatan nasional sebuah negara.
Dari definisinya aja, bisa dilihat kalau PDB ini menunjukkan nilai yang penting bagi suatu negara. Maka dari itu, wajar aja kalau pertumbuhan PDB mencerminkan pertumbuhan ekonomi dan sering dijadikan sebagai salah satu bahan pertimbangan pembuatan kebijakan sosial-ekonomi.
Read 41 tweets
11 Feb
Difference between Statistics and Machine Learning?

A Thread.
Halo everyone, selamat berjumpa kembali Bersama admin NA di thread pacmann. Nah, di thread kali ini kita bakal bahas-bahas sedikit tentang modeling nih.
Pemodelan ini biasanya kita bisa milih yaitu statistics atau machine learning.
Read 23 tweets
10 Feb
Halo, future data modellers!

Pacmann.AI hadir untuk memberikan Hands on Learning Experience seputaran Data Science dan Machine Learning lewat Pacmann Workshop Series Image
Image
Image
Read 8 tweets
10 Feb
Peran Data Analysis di Presidential Debate US 2020

A Thread
Halo2. Mimin mau sedikit nostalgia ke 2020 *says no one ever* tepatnya saat debat presiden AS!
Seperti apa performa debat masing-masing calon? Apa pengaruh debat terhadap elektabilitas calon? Pacmann.AI mau membahas kembali!
Read 14 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!