DATA SCIENTIST WAJIB PAHAM STATISTIK, no debat🙅♀️
.
.
.
A thread🧵
Mimin ga akan bosen mengingatkan kenapa DATA SCIENTIST WAJIB PAHAM STATISTIK.
Jadi, kalau kalian sedang belajar Data Science, jangan sampai males belajar statistik karena fatal banget. No debat.
Setelah membuka thread ini dengan mencak2 karena masih banyak yang menganggap data science cukup paham ngoding dan import2 library aja, mimin akan lanjutkan dengan pemahaman basic mengenai apa yang harus dikuasai Data Scientist.
Back to basic lagi, menjadi Data Scientist berarti harus punya pemahaman matematika dan statistik, computer science (ngoding), dan domain knowledge (pemahaman di industri dia bekerja).
“Banyak banget yang harus dikuasaiin min!”
Iya, memang. Ga heran kalau kompensasi untuk Data Scientist (gaji)nya juga besar. Tapi bukan berarti kalian harus expert di 3 bidang tersebut.
Apalagi, ga semua orang punya background pendidikan statistik / matematika, ada yang backgroundnya computer science, atau ada juga yang dari jurusan sosial seperti ekonomi atau bahasa.
Tapi, ketiganya harus dipahami, setidaknya dasarnya harus ada. Toh, ketika bekerja nanti kan dalam tim sehingga bisa saling membackup satu sama lain.
Nah, mari kita kupas satu persatu apa implikasinya kalau ga paham dengan salah satu bidang tsb.
(1) Semua tahapan pekerjaan Data Scientist butuh statistik
Dalam kesehariannya, Data Scientist mengumpulkan data, mengolah, dan menganalisanya, cek performa model, dan menginterpretasikan hasil.
Semua tahapan tadi melibatkan statistik. Bisa dibilang, Data Science adalah modernisasi statistik, makanya kan mimin ga bosan menekankan wajib paham stat.
*Mengumpulkan data
Biasanya, Data Scientist mengumpulkan data, tapi belum tentu semua data yang dibutuhkan itu lengkap, alias ada missing data / data yang hilang.
Nah, kadang data seperti ini harus dibuang. Tapi, apakah bisa langsung dibuang begitu saja? Tentu tidak. Harus ada dasar kapan kita membuang dan menggunakan data, dan lagi lagi hal ini dipelajari di statistik.
Mau mengakali missing data ini agar tidak usah di buang? Hal ini juga dipelajari di statistik.
*Menganalisa
Ketika menganalisa data, bahkan sesederhana mencari mean, median, mode saja sudah masuk ke ranah statistik. Kemudian, kalau mau memvisualisasikan data tersebut ke dalam grafik, bar, atau time series plot? Ini juga dibutuhkan pemahaman statistik yang cukup.
Kalau tidak, bisa menyesatkan pembaca analisis kita. Misalnya, bikin grafik itu plot nya harus mulai dari 0, kalau ga visualisasi dan pesan yang disampaikan jadi terkesan berbeda. Contohnya seperti gambar ini
Atau contoh lainnya, ketika mau membandingkan 2 sampel apakah keduanya berbeda secara signifikan (cth: apakah vaksin A lebih baik dibandingkan vaksin B secara signifikan), nah ini juga butuh pemahaman statistik.
Kalau hanya bisa menjalankan code untuk metode perbandingan tapi tidak bisa baca hasilnya, dari mana kita tahu kalau 1 sampel berbeda dengan sampel lainnya? 🤷
Lagi lagi ini dipelajari di statistik.
*Membuat model
Modeling ini digunakan ketika Data Scientist misalnya ingin mencari hubungan antara 2 variabel, membuat prediksi, klasifikasi, dan lain lain. Jadi ga cuma sekedar menganalisa.
Banyak sih library atau code yang bisa kalian copas untuk melakukan modeling ini, tapi yakin code / model yang dipilih itu sudah sesuai kebutuhan?
Sudah sesuai dengan jenis data yang kalian punya dan sesuai dengan goal akhir?
Makanya kalau di Non Degree Program Pacmann sih kelasnya belajar teori model dulu, jadi siswa ga cuma paham ngoding sebuah model, tapi juga paham konsep dan kapan harus menggunakan + implikasinya apa🤪
Sudah jauh lebih murah dari lapak sebelah, materi statistiknya lengkap, bisa interaksi sama pengajar lagi karena kelasnya live bukan cuma nonton recording🤭
Daripada kepo, mending langsung tanya tanya mimin di bit.ly/WAsalesTw aja deh yaaa
Ya jelas fatal, gimana user / hrd mau percaya sama hasil kerjamu kalau kamu sendiri ga paham alasan memilih model untuk menyelesaikan masalah tertentu.
*Cek performa model
Emang end to end workflow Data Scientist melibatkan statistik, bahkan sampai ke cek performa model. Misalnya gini, kalian punya data yang ga imbang (contoh data untuk prediksi penipuan transaksi, dari 100 data, cuma 5 yang merupakan data penipuan).
Terus kalian evaluasi modelnya pakai akurasi. Iya sih, akurasinya tinggi, padahal modelnya salah nebak, harusnya yang data penipuan malah terdeteksi bukan penipuan karena komputer lebih banyak belajar data non penipuan.
Lalu dengan pedenya ngasih ke user, “nih pack, model sy akurasi 95%, bisa dipake nic buat deteksi penipuan transaksi perusahaan bapack”
Ya goodbye, salah make matrik evaluasi → penipuan ga kedeteksi → perusahaan rugi. Situ mau tanggungjawab?
Gimana user percaya kalian paham sama apa yang kalian kerjaiin? Apalagi ini ujung ujungnya mencakup kinerja perusahaan alias nyangkut ke duit lagi. Mereka ingin tahu apa yang kalian kerjakan, bukan cuma iya iya aja sama model blackbox.
Nah, sekarang paham kan kenapa Data Scientist wajib paham statistik. Sekarang, yang jadi pertanyaannya: apakah harus se advanced itu pahamnya?
Engga. Kalian ga harus paham semua model sampai deep learning. Tapi, fondasi itu wajib dipahami. Titik.
Apa saja fondasinya?
*Probabilitas.
Ini paling dasar, kaya pelajaran smp sma aja, belajar peluang dari suatu kejadian (yang soalnya biasanya lempar dadu, flip coin, ambil bola). Mulailah dari probabilitas
*Konsep Bayesian.
Kalau tadi sudah belajar probabilitas dari eksperimen saat ini, sekarang kalian bisa naik level ke konsep bayesian; probabilitas yang mencakup informasi dari masa lalu.
*Dasar statistik
Bagaimana cara mengumpulkan data, mengorganize, menampilkan dalam bentuk grafik / visual, statistik deskriptif, statistik diferensial.
Baru deh kalau ketiganya sudah paham, lanjut belajar modeling. Kan modeling banyak, kalian ga perlu master semuanya kok. Coba sesuaikan dengan kebutuhan perusahaan aja, misal perusahaan butuh credit scoring, ya berarti kuasai klasifikasi.
Kadang, ada juga kok perusahaan yang DS nya cukup sampai level analisis aja ga sampai modeling. Kalau kalian di level junior pun ga sampai se advanced itu. Tapi intinya, paham fondasi is a must.
Sekian tentang statistik, mari lanjut ke Computer Science dan Domain Knowledge!
(2) Datanya banyak, belum tentu muat di excel
Makin hari, data yang dimiliki perusahaan makin banyak. Lama lama, row excel ga cukup untuk menampung itu semua dan kalian harus mulai menggunakan tempat penyimpanan lain.
Biasanya, menjalankan tempat penyimpanan data lain ini butuh skill ngoding. Apalagi, kalau data nya itu bukan angka, tapi berupa video, image, audio. Jadi say hello to ngoding deh.
(3) Ga punya domain knowledge = ga tau mau nyelesaiin apa
Berkaca aja dari pengalaman Zillow kemarin, platform jual beli rumah yang merugi karena bikin model machine learning tapi ga paham investasi properti. Ya kira kira gitu lah, cuma bikin model blackbox aja.
Abrakadabra tapi gatau kenapa model bisa mengeluarkan hasil seperti itu karena ga paham dengan pengetahuan industri properti.
Makanya, kadang Data Scientist butuh ngobrol sama orang bisnis di perusahaan agar paham problem yang ingin diselesaikan apa. Jadi client dan Data Scientist mengejar tujuan yang sama.
Sekian dulu ngomel2 mimin yang ke sekian. Selamat belajar statistik dan good luck!
• • •
Missing some Tweet in this thread? You can try to
force a refresh
Bertugas mengajar fundamental knowledge Data Engineering kepada siswa. Nanti akan mengajar; Computer Science, Software Engineering, Data Engineering, dan Machine Learning Operations
Googling Cepat dan Tepat🔍🧑💻
Simak tipsnya yuk!
.
.
.
A thread🧵
Ketika menyelesaikan suatu project, mana mungkin tidak Googling🤷♀️
Nah, biasanya, semakin spesifik topik yang kita bahas, makin susah nyari referensinya di Google. Jadi banyak waktu yang kebuang dehh.
Makanya, kali ini mimin bikin mini thread tentang tips Googling. Lumayan, biar bisa menghemat waktu searching apa yang dibutuhkan. Mari kita mulai threadnyaa~
Cegat Pelanggan Jangan Sampai Kabur✋🏃
Pakai Logistic Regression
.
.
.
A thread🧵
Tebakk, bagi sebuah bisnis, lebih mahal yang manaaa?
Eitss jangan terkecoh, mencari konsumen baru itu jauuhhh lebih mahal dibandingkan dengan mempertahankan konsumen. Ga heran, berbagai perusahaan concern banget sama yang namanya “churn”.
Data Analyst 101📈🔍
Job desc, Skill, and Benefits
.
.
.
A thread🧵
Mimin yakin kalian udah pernah denger pekerjaan yang satu ini. Tapi, apakah kalian udah tau apa yang dilakukan oleh Data Analyst dan membedakannya dari pekerjaan lainnya di industri data?
Jujuly, mimin juga baru paham jobdesc Data Analyst pas bikin thread ini juga sih heehhehe. Yasuda mari kita kupas tuntas jobdesc, gaji, demand di Indo, sampai skill yang dibutuhkan untuk jadi Data Analyst~