Menurut gue kebanyakan Data Scientist terlalu mikirin curve fitting dan optimisasi metrics berlebihan tanpa mikirin modeling. Makannya sering kurang berguna di perusahaan.
Gue berikan contoh kasus ya.
Kebanyakan hanya memikirkan: 1. Modelnya supervised atau unsup (meh..) 2. Metrics nya apa (meh...)
Lalu dilakukan development dalam 6 bulan, kemudian modelnya tidak bisa menjawab pertanyaan bisnis.
IMO curve fitting itu hal termudah yang dilakukan oleh DS dan biasanya hanya 5% dari pekerjaan. Pekerjaan utamanya adalah membuat modeling.
Bedakan modeling dengan fitting-fitting pakai sklearn/keras/pytorch.
Modeling memikirkan: 1. Apa yang harus dilakukan fitting 2. Cost function nya apa 3. Constraint nya apa 4. Apa task yang harus dilakukan.
Misal nih gue kasih kasus:
Perusahaan G&P memiliki cara untuk meningkatkan salesnya dengan mengirimkan salesman ke toko-toko yang menjual product P&G. Jumlah salesman lebih kecil dibanding toko-toko yang ditelusuri, maka dibutuhkan sistem untuk melakukan ranking prioritas.
Q1: Model apa yang harus dibuat?
A1: Model yang harus dibuat adalah sebuah model yang menghubungkan antara proses salesman visit ke toko dengan revenue yang didapat.
Iya dong, semua model harus lo lock ke business metrics.
Q2: Apa yang harus diukur?
A2: Yang harus diukur adalah pertambahan sales yang diterima perusahaan jika salesman A visit ke toko 123.
Delta Sales = f(visit) - f(tidak_visit)
Q3: Apa task dari modeling yang harus dilakukan?
A3: Task nya adalah melakukan estimasi delta visit/tidak_visit ke sales. Maka bentuknya adalah beta dari linear regression dari input binary (0/1) visit/tidak_visit.
Saran untuk yang lain, pikirkan ML/Stats task apa yang yang harus dilakukan untuk sebuah modeling. Jangan cuma mikrin supervised/unsup doang, gak ada gunanya.
Q4: Gimana cara modeling nya?
A4: Cara modelingnya adalah membuat estimasi Bayesian Hierarchical modeling, dengan mencoba estimasi perbedaan koefisien dari linear model dari setiap toko yang dikunjungi. Jadi beta visit/tidak_visit ada sejumlah toko.
A5: Constraint nya adalah setiap toko minimal harus pernah di-visit sekali. Uncertainty level dari estimasinya juga bergantung dari jumlah berapa kali sudah divisit.
Q6: Lalu orang bisnis akan dapat apa?
A6: Akan dapat list toko mana yang kalau di-visit akan meningkatkan sales terbesar bagi perusahaan.
Selesai. Ada pertanyaan?
• • •
Missing some Tweet in this thread? You can try to
force a refresh
Mari kita mulai pembahasan dengan restate kasus kita:
Toko Selular Nusantara menjual telepon selular bekas di e-commerce lokal. Toko ini merasa penentuan harganya terkadang terlalu murah, terkadang terlalu mahal. Toko tersebut memiliki data: 1) jenis hape, 2) harga, 3) terjual atau tidak, 4) kondisi hape.
Hallo semuanya selamat siang! Gimana nih hari kedua long weekend pertama kalian di 2021 ini?! Seru gaaak?
Yuk kita manfaatkan long weekend ini sebagai kesempatan buat recharge diri dari segala tekanan pekerjaan biar ga kena workplace stress. Apalagi di tengah pandemi kaya gini dan terutama yang wfh jadi lebih mudah stress karena tekanan pekerjaan, ya gak sih?
Sebenarnya memang wajar sih kalau lebih mudah stress saat wfh. Penelitian juga membuktikan kok kalau penggunaan handphone maupun komputer membuat kita terkoneksi dengan pekerjaan lebih dari sebelumnya, akibatnya kita lebih mudah mengalami tekanan pekerjaan dan berujung ke stress.
PERTUMBUHAN EKONOMI BISA DIHITUNG MENGGUNAKAN CAHAYA?!
.
.
.
A Thread
Produk Domestik Bruto atau yang biasa disingkat dengan ‘PDB’ merupakan nilai pasar seluruh barang dan jasa yang diproduksi oleh suatu negara pada periode tertentu. Nilai ini juga menunjukkan jumlah pendapatan nasional sebuah negara.
Dari definisinya aja, bisa dilihat kalau PDB ini menunjukkan nilai yang penting bagi suatu negara. Maka dari itu, wajar aja kalau pertumbuhan PDB mencerminkan pertumbuhan ekonomi dan sering dijadikan sebagai salah satu bahan pertimbangan pembuatan kebijakan sosial-ekonomi.
Difference between Statistics and Machine Learning?
A Thread.
Halo everyone, selamat berjumpa kembali Bersama admin NA di thread pacmann. Nah, di thread kali ini kita bakal bahas-bahas sedikit tentang modeling nih.
Pemodelan ini biasanya kita bisa milih yaitu statistics atau machine learning.