Central Limit Theorem: kenyataan pahit yang ga semua orang tahu📊
Introduction to Cauchy Distribution
.
.
.
A thread
Central limit theorem? Hmm.. udah sering banget ga sih denger teorema ini? Tapi kalo Cauchy Distribution, udah pada tau belum, nih?
Central Limit Theorem itu kan bunyinya gini: distribusi dari rata-rata sampel variabel acak yang gak di-generate dari dist Gaussian biasanya akan jadi Gaussian kalo misalnya ukuran sampelnya cukup besar.
Nah si CLT ini kan kerjanya dari tengah ke luar. Jadi nih misal, kita mengasumsikan 2/3 dari seluruh data kita itu bakal ada di dalam suatu standar deviasi dari mean yang spesifik. Nah ini bisa didapat walaupun sampelnya kecil.
Tapi nih ya, kao kita ngomongin ekornya si CLT, bakal cukup sulit. Kalo kita mau cari data yang ada di luar standar deviasi tertentu (misal: 5 sd), wah, bakal bingung deh walaupun sample sizenya besar.
Makanya, CLT ini bakal bikin kita disappointed kalo distribusi dari data kita itu punya varians yang unlimited. Walaupun kasus ini jarang, tapi kadang ada loh di bidang-bidang ilmu tertentu.
Let me show you kalau statement CLT di atas bisa terlanggar pake contoh sederhana di python, dan the “rare” case yang sudah disebut tadi:
Di contoh ini, kita pake 10000 sampel dari populasi berdistribusi t-Student. Jumlah sampel sebanyak itu seharusnya sudah bisa dibilang kalau datanya berdistribusi Gaussian berdasarkan CLT, dong?
Terus, yuk kita generate datanya dan bentuk histogram nya pake t-student dengan degree of freedom (df) 0.9, 1.5, 1.9, 2.1, 2.5, dan 3.0.
Semakin besar p-value, berarti semakin besar kemungkinan datanya berdistribusi gaussian. Kalo diliat, buat df yang dibawah 2 tuh sampelnya less likely berasal dari dist gaussian, loh.
Terus, kalo kalian lihat histogram paling pertama, kita bisa bilang data itu tuh ndud banget, loh. Data itu gapunya mean dan varians, dan sangat besar kemungkinan dia bukan dari dist gaussian, toh p-valuenya 0.00.
Teori dari distribusi t-student: datanya ga akan punya mean buat df <= 1, dan gapunya varians buat df <= 2. Coba kita lihat lagi histogram paling pertama. Data dari df=1.9 itu gapunya mean dan varians dan terlihat “ndud”, kan?
Artinya, data itu tuh gak punya “well defined moment”. Apa tuh maksudnya? Data ini ga punya momen pertama (ekspektasi) dan momen kedua (varians) yang didefinisikan dengan baik.
Kalo kita simpulkan si CLT ini gak selamanya benar, terus apa dong selanjutnya? Buat histogram pertama, harus kita apain dong? Nah, counter-example dari CLT itu adalah Cauchy Distribution, nih.
Buat kita-kita yang ga biasa sama distribusi yang ekornya “gendut”, apalagi yang belum kenal Cauchy Distribution, yang gapunya mean atau varians yang didefinisikan dengan baik, pasti pusing sih, soalnya memang jarang dipake.
Terus gimana dong distribusi probabilitas nya, kan momen pertama sama keduanya ga well defined?
Misalnya nih, kita mau lempar darts tapi tutup mata tapi ke segala arah scara uniform. Terus, nanti bisa jadi bakal ada setengah darts yang diluar papan, ada setengah lagi yang di dalem.
Jadi, lokasi dartsnya bisa dikatakan sebagai:
Nah berdasarkan persamaan tadi, kita bisa bikin probabilitas nya, nih. Jadi, pdfnya bakal kayak begini:
Sederhananya, karena distribusi angular itu uniform, kita bisa dapet pdf ini (which is, pdf dari Cauchy dist):
Nah tuh, kita bisa liat kan kenapa mean sama variansnya ga didefinisikan dengan baik? Soalnya, kalo mau nyari mean kita harus ngintegralin si y sama pembilangnya, yang ga konvergen. Nyari variansnya pun begitu.
Kenapa tadi contohnya lempar dart ke segala arah? Karena Cauchy dist itu simpelnya ya draw angles dari distribusi uniform. Cauchy ini gapunya mean dan varians, dan mean samplenya sangat fluktuatif.
Artinya? Sample means dari Cauchy distribution itu ga berdistribusi normal mau sebanyak apapun sample sizenya.
Jadi, sebenarnya apa yang diklaim sebagai Central Limit Theorem tuh bener kok, cuma ya hanya buat kelas distribusi yang terbatas: yang punya momen pertama (ekspektasi) dan kedua (varians) yang “well defined”.
Kalo ga well defined? Datanya bakal mengikuti distribusi Cauchy, deh.
Nah, sekarang kita jadi kenal kan sama Cauchy Distribution. Thread ini hanya sebagian kecil dari berbagai konsep statistik. Kalau kamu mau memperdalam statistik agar bisa jadi Data Scientist, tenang aja, non degree program Data Scientist Pacmann bisa jadi solusinya!
Di awal pembelajaran, kalian bakal dapet refresher statistik dan matematika, alias kurikulumnya mendalam banget, ga cuma fasfisfus wasweswos aja. Kalian bisa cek apa yang akan dipelajari di bit.ly/brosurpacmannai
Jangan lupa, masih ada potongan 10% loh kalo kalian daftar sekarang, kapan lagi dapet THR dari Pacmann? Segera daftarkan diri kalian di bit.ly/PendaftaranNon… dan pakai kode PACMANNTHR2021 yaa!
Mau punya model bagus tapi datanya imbalanced? 😢🤷♂️
Catat 3 solusinya!
.
.
.
A thread
Suatu hari, kita diminta klien membangun model machine learning yang bisa mendeteksi tumor ganas pada lambung pasien. Kemudian, dengan memakai dataset berisi kumpulan CT-Scan perut, kita buat model yang memprediksi apakah seorang pasien menderita kanker lambung atau tidak.
Tapi masalahnya, ‘Gastric cancer’ atau kanker lambung ini tergolong sangat jarang temen-temen. Bahkan di Indonesia, resikonya itu cuma sekitar 0.0028%. Itu artinya, kalau kita sampling 100.000 orang, kemungkinannya kita cuma akan peroleh 3 sampel data penderita kanker lambung!
Enam alasan kenapa project DS sering gagal. 🥲🤦
Jangan sampai terjerumus ke 6 penyebab ini!
.
.
.
A thread
Pernah gak sih udah cape-cape begadang berminggu-minggu bikin model tapi kok ga selesai-selesai? Atau mungkin modelnya udah jadi tapi ternyata ga memberikan insight sesuai yang diminta atasan? 🥲🥲🥲
Yaa, kita semua setuju lah ya hal-hal di atas jadi nightmare banget, dan sebisa mungkin kita mau menghindari project menjadi gagal. Nah, makanya di thread kali ini, mimin mau bahas beberapa alasan yang bisa menyebabkan project kita fail. Langsung aja ke alasan yang pertama
Udah buat program tapi bingung evaluasinya gimana?🧐🤔
Pakai Difference in Difference aja!
.
.
.
A thread
Mimin yakin tempat kerja kalian pasti pernah membuat program baru / keputusan krusial. Setelah membuat program baru ini, tentunya ada outcome yang diharapkan dong, kalau ga ya ngapain repot-repot bikin program?
Yang menjadi pertanyaan adalah, gimana caranya kita tau kalau program ini memiliki dampak yang signifikan?
Katanya mau jadi Data Scientist, tapi masih takut statisik? 🤨😱
Kenalan sama basicnya dulu yuk!
.
.
.
A thread
Hayoo siapa yang disini lagi mau banting setir buat ngerambah dunia perdataan dan jadi Data Scientist?
Kalau kamu udah mau menyelami profesi ini, ada baiknya nih tau dulu kira kira kamu bakal berurusan sama apa sih ketika jadi DS nanti? Biar kebayang, kamu bisa liat diagram venn dibawah ini nih:
Coba tebak-tebakan dulu: Berapa sih gaji Data Scientist di Indonesia?
Sebenernya, ketiga opsi itu nggak ada yang salah guys HEHE. Soalnya, penentuan gaji seseorang bakal dipengaruhi oleh banyak hal, meski punya titel sama sebagai ‘Data Scientist’.