Mari kita mulai pembahasan dengan restate kasus kita:
Toko Selular Nusantara menjual telepon selular bekas di e-commerce lokal. Toko ini merasa penentuan harganya terkadang terlalu murah, terkadang terlalu mahal. Toko tersebut memiliki data: 1) jenis hape, 2) harga, 3) terjual atau tidak, 4) kondisi hape.
Q1: Apa yang harus dimodelkan?
Pembahasan gue masih menekankan bahwa kebanyakan data scientist mengabaikan modeling, hanya fokus ke curve fitting.
Pertama tentukan dulu objective dari model nya apa. Dalam kasus ini kita mau memaksimalkan sebuah telepon selular terjual dengan harga paling optimal.
Isi model: 1. Modeling probability terjual 2. Modeling harga optimal.
Tentukan decision space dari model:
Price = [0, +inf]
Jadi price harus positif. Berapa price nya? Ini yang harus dimodelkan.
Q2: Apa loss function nya?
Loss function ini selalu digunakan untuk optimisasi, goal nya adalah meminimalisir loss. Yang kita mau maximize adalah Sales.
arg max Sales
Sales = Quantity x Price.
Quantity ini karena menjualnya adalah per barang, maka kta ubah menjadi Probability terjual given price, bisa dimodelkan dengan Logistic Regression, gue lambangkan dengan f(Price).
Price terbaiki diasumsikan sebagai Price*, kita jamet-jamet biasanya nyebutnya dengan "price star".
L(f(Price), Price)= f(Price) × Price.
Pertanyaannya berapa harga yang memaksimalkan sales?
Q3: Gimana cara fitting nya?
Nah ini baru masuk fitting, apa-apa gak langsung dimasukin ke scikit-learn atau xgboost ya. Kalau situ masih ngelakuin kayak gitu, ya agak disayangkan aja situ jadi library operator aja. Padahal bisa lebih
Ini adalah data yang kita punya
Yang diprediksi adalah......
Terjual/ Tidak Terjual
Inputnya adalah....
Kondisi hape, harga dan tahun.
Ini modelnya
Kemarin ada yang bilang mau pakai Deep Learning/Xgboost, gue ragu.... soalnya kita mau optimisasi Price star. Jadi kalau non linear bakalan banyak local optima.
Silakan kasih argumen kalau ternyata bisa. Ini cuma modeling, gue open buat diskusi.
Q4: Apa batasannya?
Pasti jamet-jamet dari ekonomi langsung mau komentar casciscus. Benar model ini ada batasannya dan sejujurnya hampir pasti bias.
Setiap input variable punya korelasi, misal:
- semakin tua sebuah telepon selular maka semakin mungkin untuk baret.
- semakin tua sebuah telepon selular maka semakin murah harganya.
Akibatnya adalah beta dari estimasi harga akan bias! sehingga mengakibatkan estimasi efek perubahan harga terhadap probabilty terjual menjadi salah.
Misal harusnya beta 2.0, jadinya 1.5 atau 2.5. Paham gak?
Kalau gak paham mending ikut kelas @pacmannai aja...
Q5: Apa metode yang digunakan?
Bayesian Logistic Regression..... biar ketahuan nanti kalau kita masukin simulasi uncertainty harga dan uncertainty lossnya gimana.
Q6: Bagaimana cara optimisasinya?
capek nulis...
Anda tinggal melakukan simulasi harga dari barang tersebut, karena harga adalah hal yang bisa kontrol/decision yang bisa kita ambil.
Recall our objective function:
Harga ketinggian bikin hape gak kejual, harga kemurahan bikin revenue kerendahan. Jadi simulasikan cari price terbaik.
Selesai, pinter kan mimin?
Enggak kaleng-kalengan kayak tempat bootcamp yang lain, di pacmann ai beneran belajar modeling.
Karena kalau pakai DL, karena dia non linear, maka decision nya juga non linear, sehingga bentuknya gak 1 global optimal, melainkan banyak local optimal.
Hallo semuanya selamat siang! Gimana nih hari kedua long weekend pertama kalian di 2021 ini?! Seru gaaak?
Yuk kita manfaatkan long weekend ini sebagai kesempatan buat recharge diri dari segala tekanan pekerjaan biar ga kena workplace stress. Apalagi di tengah pandemi kaya gini dan terutama yang wfh jadi lebih mudah stress karena tekanan pekerjaan, ya gak sih?
Sebenarnya memang wajar sih kalau lebih mudah stress saat wfh. Penelitian juga membuktikan kok kalau penggunaan handphone maupun komputer membuat kita terkoneksi dengan pekerjaan lebih dari sebelumnya, akibatnya kita lebih mudah mengalami tekanan pekerjaan dan berujung ke stress.
Menurut gue kebanyakan Data Scientist terlalu mikirin curve fitting dan optimisasi metrics berlebihan tanpa mikirin modeling. Makannya sering kurang berguna di perusahaan.
Gue berikan contoh kasus ya.
Kebanyakan hanya memikirkan: 1. Modelnya supervised atau unsup (meh..) 2. Metrics nya apa (meh...)
Lalu dilakukan development dalam 6 bulan, kemudian modelnya tidak bisa menjawab pertanyaan bisnis.
IMO curve fitting itu hal termudah yang dilakukan oleh DS dan biasanya hanya 5% dari pekerjaan. Pekerjaan utamanya adalah membuat modeling.
Bedakan modeling dengan fitting-fitting pakai sklearn/keras/pytorch.
PERTUMBUHAN EKONOMI BISA DIHITUNG MENGGUNAKAN CAHAYA?!
.
.
.
A Thread
Produk Domestik Bruto atau yang biasa disingkat dengan ‘PDB’ merupakan nilai pasar seluruh barang dan jasa yang diproduksi oleh suatu negara pada periode tertentu. Nilai ini juga menunjukkan jumlah pendapatan nasional sebuah negara.
Dari definisinya aja, bisa dilihat kalau PDB ini menunjukkan nilai yang penting bagi suatu negara. Maka dari itu, wajar aja kalau pertumbuhan PDB mencerminkan pertumbuhan ekonomi dan sering dijadikan sebagai salah satu bahan pertimbangan pembuatan kebijakan sosial-ekonomi.
Difference between Statistics and Machine Learning?
A Thread.
Halo everyone, selamat berjumpa kembali Bersama admin NA di thread pacmann. Nah, di thread kali ini kita bakal bahas-bahas sedikit tentang modeling nih.
Pemodelan ini biasanya kita bisa milih yaitu statistics atau machine learning.