DATA SCIENTIST WAJIB PAHAM STATISTIK, no debat🙅‍♀️
.
.
.
A thread🧵
Mimin ga akan bosen mengingatkan kenapa DATA SCIENTIST WAJIB PAHAM STATISTIK.

Jadi, kalau kalian sedang belajar Data Science, jangan sampai males belajar statistik karena fatal banget. No debat.
Setelah membuka thread ini dengan mencak2 karena masih banyak yang menganggap data science cukup paham ngoding dan import2 library aja, mimin akan lanjutkan dengan pemahaman basic mengenai apa yang harus dikuasai Data Scientist.
Back to basic lagi, menjadi Data Scientist berarti harus punya pemahaman matematika dan statistik, computer science (ngoding), dan domain knowledge (pemahaman di industri dia bekerja).
“Banyak banget yang harus dikuasaiin min!”

Iya, memang. Ga heran kalau kompensasi untuk Data Scientist (gaji)nya juga besar. Tapi bukan berarti kalian harus expert di 3 bidang tersebut.
Apalagi, ga semua orang punya background pendidikan statistik / matematika, ada yang backgroundnya computer science, atau ada juga yang dari jurusan sosial seperti ekonomi atau bahasa.
Tapi, ketiganya harus dipahami, setidaknya dasarnya harus ada. Toh, ketika bekerja nanti kan dalam tim sehingga bisa saling membackup satu sama lain.
Nah, mari kita kupas satu persatu apa implikasinya kalau ga paham dengan salah satu bidang tsb.
(1) Semua tahapan pekerjaan Data Scientist butuh statistik

Dalam kesehariannya, Data Scientist mengumpulkan data, mengolah, dan menganalisanya, cek performa model, dan menginterpretasikan hasil.
Semua tahapan tadi melibatkan statistik. Bisa dibilang, Data Science adalah modernisasi statistik, makanya kan mimin ga bosan menekankan wajib paham stat.
*Mengumpulkan data

Biasanya, Data Scientist mengumpulkan data, tapi belum tentu semua data yang dibutuhkan itu lengkap, alias ada missing data / data yang hilang.
Nah, kadang data seperti ini harus dibuang. Tapi, apakah bisa langsung dibuang begitu saja? Tentu tidak. Harus ada dasar kapan kita membuang dan menggunakan data, dan lagi lagi hal ini dipelajari di statistik.
Mau mengakali missing data ini agar tidak usah di buang? Hal ini juga dipelajari di statistik.
*Menganalisa

Ketika menganalisa data, bahkan sesederhana mencari mean, median, mode saja sudah masuk ke ranah statistik. Kemudian, kalau mau memvisualisasikan data tersebut ke dalam grafik, bar, atau time series plot? Ini juga dibutuhkan pemahaman statistik yang cukup.
Kalau tidak, bisa menyesatkan pembaca analisis kita. Misalnya, bikin grafik itu plot nya harus mulai dari 0, kalau ga visualisasi dan pesan yang disampaikan jadi terkesan berbeda. Contohnya seperti gambar ini Image
Atau contoh lainnya, ketika mau membandingkan 2 sampel apakah keduanya berbeda secara signifikan (cth: apakah vaksin A lebih baik dibandingkan vaksin B secara signifikan), nah ini juga butuh pemahaman statistik.
Kalau hanya bisa menjalankan code untuk metode perbandingan tapi tidak bisa baca hasilnya, dari mana kita tahu kalau 1 sampel berbeda dengan sampel lainnya? 🤷

Lagi lagi ini dipelajari di statistik.
*Membuat model

Modeling ini digunakan ketika Data Scientist misalnya ingin mencari hubungan antara 2 variabel, membuat prediksi, klasifikasi, dan lain lain. Jadi ga cuma sekedar menganalisa.
Banyak sih library atau code yang bisa kalian copas untuk melakukan modeling ini, tapi yakin code / model yang dipilih itu sudah sesuai kebutuhan?

Sudah sesuai dengan jenis data yang kalian punya dan sesuai dengan goal akhir?
Makanya kalau di Non Degree Program Pacmann sih kelasnya belajar teori model dulu, jadi siswa ga cuma paham ngoding sebuah model, tapi juga paham konsep dan kapan harus menggunakan + implikasinya apa🤪
Sudah jauh lebih murah dari lapak sebelah, materi statistiknya lengkap, bisa interaksi sama pengajar lagi karena kelasnya live bukan cuma nonton recording🤭

Daripada kepo, mending langsung tanya tanya mimin di bit.ly/WAsalesTw aja deh yaaa Image
Ya jelas fatal, gimana user / hrd mau percaya sama hasil kerjamu kalau kamu sendiri ga paham alasan memilih model untuk menyelesaikan masalah tertentu.
*Cek performa model

Emang end to end workflow Data Scientist melibatkan statistik, bahkan sampai ke cek performa model. Misalnya gini, kalian punya data yang ga imbang (contoh data untuk prediksi penipuan transaksi, dari 100 data, cuma 5 yang merupakan data penipuan).
Terus kalian evaluasi modelnya pakai akurasi. Iya sih, akurasinya tinggi, padahal modelnya salah nebak, harusnya yang data penipuan malah terdeteksi bukan penipuan karena komputer lebih banyak belajar data non penipuan.
Lalu dengan pedenya ngasih ke user, “nih pack, model sy akurasi 95%, bisa dipake nic buat deteksi penipuan transaksi perusahaan bapack”

Ya goodbye, salah make matrik evaluasi → penipuan ga kedeteksi → perusahaan rugi. Situ mau tanggungjawab?
Gimana user percaya kalian paham sama apa yang kalian kerjaiin? Apalagi ini ujung ujungnya mencakup kinerja perusahaan alias nyangkut ke duit lagi. Mereka ingin tahu apa yang kalian kerjakan, bukan cuma iya iya aja sama model blackbox.
Nah, sekarang paham kan kenapa Data Scientist wajib paham statistik. Sekarang, yang jadi pertanyaannya: apakah harus se advanced itu pahamnya?
Engga. Kalian ga harus paham semua model sampai deep learning. Tapi, fondasi itu wajib dipahami. Titik.
Apa saja fondasinya?

*Probabilitas.
Ini paling dasar, kaya pelajaran smp sma aja, belajar peluang dari suatu kejadian (yang soalnya biasanya lempar dadu, flip coin, ambil bola). Mulailah dari probabilitas
*Konsep Bayesian.

Kalau tadi sudah belajar probabilitas dari eksperimen saat ini, sekarang kalian bisa naik level ke konsep bayesian; probabilitas yang mencakup informasi dari masa lalu.
*Dasar statistik

Bagaimana cara mengumpulkan data, mengorganize, menampilkan dalam bentuk grafik / visual, statistik deskriptif, statistik diferensial.
Baru deh kalau ketiganya sudah paham, lanjut belajar modeling. Kan modeling banyak, kalian ga perlu master semuanya kok. Coba sesuaikan dengan kebutuhan perusahaan aja, misal perusahaan butuh credit scoring, ya berarti kuasai klasifikasi.
Kadang, ada juga kok perusahaan yang DS nya cukup sampai level analisis aja ga sampai modeling. Kalau kalian di level junior pun ga sampai se advanced itu. Tapi intinya, paham fondasi is a must.
Sekian tentang statistik, mari lanjut ke Computer Science dan Domain Knowledge!
(2) Datanya banyak, belum tentu muat di excel

Makin hari, data yang dimiliki perusahaan makin banyak. Lama lama, row excel ga cukup untuk menampung itu semua dan kalian harus mulai menggunakan tempat penyimpanan lain.
Biasanya, menjalankan tempat penyimpanan data lain ini butuh skill ngoding. Apalagi, kalau data nya itu bukan angka, tapi berupa video, image, audio. Jadi say hello to ngoding deh.
(3) Ga punya domain knowledge = ga tau mau nyelesaiin apa

Berkaca aja dari pengalaman Zillow kemarin, platform jual beli rumah yang merugi karena bikin model machine learning tapi ga paham investasi properti. Ya kira kira gitu lah, cuma bikin model blackbox aja.
Abrakadabra tapi gatau kenapa model bisa mengeluarkan hasil seperti itu karena ga paham dengan pengetahuan industri properti.
Makanya, kadang Data Scientist butuh ngobrol sama orang bisnis di perusahaan agar paham problem yang ingin diselesaikan apa. Jadi client dan Data Scientist mengejar tujuan yang sama.
Sekian dulu ngomel2 mimin yang ke sekian. Selamat belajar statistik dan good luck!

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with IG: @pacmannai

IG: @pacmannai Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @pacmannai

28 Nov
Data Analytics 101📈🧠
What Is It and What to Prepare
.
.
.
A thread🧵
Seperti yang kita tau, saat ini semua perusahaan memiliki data, termasuk perusahaan non digital, misalnya perusahaan manufaktur dan consumer goods.

Eiitsss- emang kenapa hal ini jadi penting sih?
Data sebenarnya hanyalah kumpulan fakta. Tapiii, kalau bisa mengolahnya, data bisa memberikan:

- Prediksi apa yang terjadi di masa depan
- Power untuk membuat keputusan 
- Dampak positif ke perusahaan
Read 36 tweets
27 Nov
Mau jadi Data Scientist tapi Math Phobia?🤦‍♀️🤦
Nih, cara atasinya!
.
.
.
A thread🧵
Hayo hayooo, ga sedikit nih orang orang yang mau jadi Data Scientist karena tergoda gaji besar tapi giliran disuruh belajar Matematika malah mundur😏
Kalo menurut Mark H. Ashcraft, math phobia ini adalah perasaan tegang, khawatir, dan takut yang mengganggu kinerja matematika.

Nah loh, relate ga nihh??
Read 24 tweets
26 Nov
PACMANN LAGI HIRING NIH!

Udah akhir tahun, siapa tau siap siap cari yang baru, bisa dilihat nih 3 posisi yang dibuka Pacmann:

Software Engineer Lecturer
Sekolah Engineering Curriculum Coordinator
Secretary and GA

#lokercot
(1) Software Engineer Lecturer

Bertugas mengajar fundamental knowledge Data Engineering kepada siswa. Nanti akan mengajar; Computer Science, Software Engineering, Data Engineering, dan Machine Learning Operations Image
Bila berminat dengan posisi ini cus langsung cek info lengkapnya di pacmann.io/careers#lectur…
Read 8 tweets
28 Sep
Googling Cepat dan Tepat🔍🧑‍💻
Simak tipsnya yuk!
.
.
.
A thread🧵
Ketika menyelesaikan suatu project, mana mungkin tidak Googling🤷‍♀️

Nah, biasanya, semakin spesifik topik yang kita bahas, makin susah nyari referensinya di Google. Jadi banyak waktu yang kebuang dehh.
Makanya, kali ini mimin bikin mini thread tentang tips Googling. Lumayan, biar bisa menghemat waktu searching apa yang dibutuhkan. Mari kita mulai threadnyaa~
Read 15 tweets
26 Sep
Cegat Pelanggan Jangan Sampai Kabur✋🏃
Pakai Logistic Regression
.
.
.
A thread🧵
Tebakk, bagi sebuah bisnis, lebih mahal yang manaaa?
Eitss jangan terkecoh, mencari konsumen baru itu jauuhhh lebih mahal dibandingkan dengan mempertahankan konsumen. Ga heran, berbagai perusahaan concern banget sama yang namanya “churn”.
Read 29 tweets
25 Sep
Data Analyst 101📈🔍
Job desc, Skill, and Benefits
.
.
.
A thread🧵
Mimin yakin kalian udah pernah denger pekerjaan yang satu ini. Tapi, apakah kalian udah tau apa yang dilakukan oleh Data Analyst dan membedakannya dari pekerjaan lainnya di industri data?
Jujuly, mimin juga baru paham jobdesc Data Analyst pas bikin thread ini juga sih heehhehe. Yasuda mari kita kupas tuntas jobdesc, gaji, demand di Indo, sampai skill yang dibutuhkan untuk jadi Data Analyst~
Read 30 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Thank you for your support!

Follow Us on Twitter!

:(