Udah buat program tapi bingung evaluasinya gimana?🧐🤔
Pakai Difference in Difference aja!
.
.
.
A thread
Mimin yakin tempat kerja kalian pasti pernah membuat program baru / keputusan krusial. Setelah membuat program baru ini, tentunya ada outcome yang diharapkan dong, kalau ga ya ngapain repot-repot bikin program?
Yang menjadi pertanyaan adalah, gimana caranya kita tau kalau program ini memiliki dampak yang signifikan?
Sebagai contoh, anggaplah kita ini team marketing sebuah perusahaan di Brazil. Harapannya, dengan masang billboard, sales produk jadi meningkat.
Misalnya setelah masang billboard, sales produk jadi meningkat. Tapi, apakah kita bisa yakin kalau peningkatan sales nya ini disebabkan oleh iklan di billboard? Bisa aja kan sales nya meningkat gara gara adanya mouth-to-mouth konsumen karena emang produk kita ini bagus?
Lalu gimana nih cara mastiin kalau peningkatan sales benar-benar karena pemasangan billboard?
Nah, di thread kali ini, kita akan kenalan sama metode “Difference in Difference” (DID) atau biasa dikenal juga sebagai “Double-Difference”.
Dengan DID, kita bisa melihat bagaimana dampak sebuah program dengan membandingkan kelompok yang mendapatkan program (treatment group) dengan yang tidak mendapatkan program (control group).
Kita juga akan menggunakan unsur waktu disini, alias before-after intervensi kedua kelompok tadi. Adanya unsur before after ini digunakan untuk mengkoreksi perbedaan antara treatment dan control group yang konstant sepanjang waktu.
Intinya adalah dengan DID, kita ini mengasumsikan bahwa tanpa adanya program, maka outcome treatment group akan bergerak seiring dengan outcome dari control group.
Lalu apa sih makna dari ‘difference in difference’ itu sendiri? Emang kita mau nyari perbedaan apa?
Sesuai dengan namanya, kita bakal mencari 2 perbedaan nih. Pertama-tama, kita cari dulu perbedaan before-after dari treatment group dan perbedaan before after dari control group.
Setelah itu, hasil keduanya akan kita kurangin, dan jadi ketemu deh ‘real effect’ dari program / intervensi yang kita buat.
Biar memudahkan, kita contohin ya. Misalkan kita pasang billboard di Kota Porto Alegre (treatment group), tapi ga masang di Kota Florianopolis (control group) pada bulan Juni lalu.
Berarti beforenya adalah bulan Mei, afternya bulan Juli. Iya, kita liat periode post-intervention, yaitu bulan Juli.
Setelah itu, kita liat nih data sales produk di kedua kota tersebut dan carilah DID nya dengan yang tadi mimin bilang, tinggal ngurang ngurangin aja. Langkah pertama, cari dulu selisih before after sales di Kota Alegre (100 - 50).
Kedua, cari hal yang sama di Kota Florianopolis (110 - 70). Kan udah ketemu tuh hasilnya, yaitu 50 dan 40, yaudah deh, tinggal kita kurangin, dan ketemu hasilnya 10. Artinya, pemasangan billboard di Kota Porto Alegre meningkatkan sales sebesar 10 produk.
Nah, kalian juga bisa nyari dengan mecari selisih before kedua kota lalu menguranginya dengan selisih after kedua kota tersebut. Nanti hasilnya juga sama kokk.
Idenya cukup simple kann? Tapi kalau kita mau buat laporan, ga mungkin dong kita ga buat model formalnya. Makanya, sekarang mimin mau kenalin kalian sama model regresi dari DID ini.
Kalian bisa liat model nya pada gambar di bawah ini yaa:
Lalu, apa maksud dari β0, β1, β2, dan β3 yang ada dalam model?
β0 mencerminkan baseline dari control group, artinya sales di Kota Florianopolis pada bulan Mei. Nah, kalau misalkan kita ‘turn on’ si variabel POA ini, artinya kan kita melihat Kota Porto Alegre, makanya kita akan mendapatkan β1.
Jadi β0 + β1 menunjukkan baseline dari Porto Alegre di bulan Mei / sebelum pemasangan billboard. Dan β1 merupakan peningkatan baseline Porto Alegre.
Sebaliknya, kalau kita ‘turn off’ si variabel POA ini, dan ‘turn on’ variabel July, maka kita akan mendapatkan β0 + β2 yang menunjukkan sales di Florianopolis pada bulan Juli atau setelah pemasangan billboard.
Intinya adalah β1 nunjukkin peningkatan sales dari treatment ke kontrol, sedangkan β2 menunjukkan peningkatan sales dari before dan after pemasangan billboard.
Terakhir, kalau kita ‘turn on’ kedua variabel dummy dalam model, yakni POA dan Juli, maka kita bakal dapetin nilai β3 nya. Sehingga total dari β0 + β1+ β2 + β3 menunjukkan sales produk di Porto Alegre setelah pemasangan billboard.
Atau dalam kata lain, β3 ini menunjukkan peningkatan sales dari May ke Juli dan dari Florianopolis ke POA, alias β3 merupakan estimator dari DID nya.
Singkatnya itu guys tentang DID. Biasanya, metode ini digunakan buat mengevaluasi kebijakan-kebijakan di bidang sosial, misalnya melihat dampak dari UMR, pajak emisi CO2, pemberian kredit bagi penduduk berpendapatan rendah, dan masih banyak lagi.
Kalau kalian tertarik untuk mendalami DID, kalian bisa ngulik lagi lebih dalam di materi ekonometrika. Kerennya, kurikulum Pacmann juga sudah include materi ekonometrika loh! Kalau ga percaya, cek aja sendiri di bit.ly/brosurpacmannai
Ga cuma bakal belajar materinya aja, kalian juga bakal praktek langsung menggunakan tools-tools Data Scientist. Paket komplit banget deh! Ga usah banyak ragu, langsung aja daftarkan diri kalian di bit.ly/PendaftaranNon…
Kalau daftar sekarang, kalian masih berkesempatan untuk mendapatkan THR dari Pacmann berupa potongan uang pendaftaran sebesar 10%. Cukup masukkan kode voucher THRPACMANN2021 dan kalian udah bisa nikmatin potongannya deh! Buruan, hanya berlaku sampai tanggal 3 loh!
Mau punya model bagus tapi datanya imbalanced? 😢🤷♂️
Catat 3 solusinya!
.
.
.
A thread
Suatu hari, kita diminta klien membangun model machine learning yang bisa mendeteksi tumor ganas pada lambung pasien. Kemudian, dengan memakai dataset berisi kumpulan CT-Scan perut, kita buat model yang memprediksi apakah seorang pasien menderita kanker lambung atau tidak.
Tapi masalahnya, ‘Gastric cancer’ atau kanker lambung ini tergolong sangat jarang temen-temen. Bahkan di Indonesia, resikonya itu cuma sekitar 0.0028%. Itu artinya, kalau kita sampling 100.000 orang, kemungkinannya kita cuma akan peroleh 3 sampel data penderita kanker lambung!
Enam alasan kenapa project DS sering gagal. 🥲🤦
Jangan sampai terjerumus ke 6 penyebab ini!
.
.
.
A thread
Pernah gak sih udah cape-cape begadang berminggu-minggu bikin model tapi kok ga selesai-selesai? Atau mungkin modelnya udah jadi tapi ternyata ga memberikan insight sesuai yang diminta atasan? 🥲🥲🥲
Yaa, kita semua setuju lah ya hal-hal di atas jadi nightmare banget, dan sebisa mungkin kita mau menghindari project menjadi gagal. Nah, makanya di thread kali ini, mimin mau bahas beberapa alasan yang bisa menyebabkan project kita fail. Langsung aja ke alasan yang pertama
Katanya mau jadi Data Scientist, tapi masih takut statisik? 🤨😱
Kenalan sama basicnya dulu yuk!
.
.
.
A thread
Hayoo siapa yang disini lagi mau banting setir buat ngerambah dunia perdataan dan jadi Data Scientist?
Kalau kamu udah mau menyelami profesi ini, ada baiknya nih tau dulu kira kira kamu bakal berurusan sama apa sih ketika jadi DS nanti? Biar kebayang, kamu bisa liat diagram venn dibawah ini nih:
Central Limit Theorem: kenyataan pahit yang ga semua orang tahu📊
Introduction to Cauchy Distribution
.
.
.
A thread
Central limit theorem? Hmm.. udah sering banget ga sih denger teorema ini? Tapi kalo Cauchy Distribution, udah pada tau belum, nih?
Central Limit Theorem itu kan bunyinya gini: distribusi dari rata-rata sampel variabel acak yang gak di-generate dari dist Gaussian biasanya akan jadi Gaussian kalo misalnya ukuran sampelnya cukup besar.
Coba tebak-tebakan dulu: Berapa sih gaji Data Scientist di Indonesia?
Sebenernya, ketiga opsi itu nggak ada yang salah guys HEHE. Soalnya, penentuan gaji seseorang bakal dipengaruhi oleh banyak hal, meski punya titel sama sebagai ‘Data Scientist’.