Mau clustering data?
Lebih oke gaussian mixture model atau k-means?🧐🤔
.
.
.
A thread
Gaussian pasti bukan kata yang asing lagi buat kita semua, kan? Distribusi Gaussian, yang diperkenalkan oleh Carl Friedrich Gauss, biasanya kita kenal dengan nama lain distribusi normal.
Sebelumnya, yuk kenalan sama gaussian process dulu. Kalian tau gak sih, sebenernya gaussian process ini cuma berguna di ranah statistika, atau bisa diimplementasikan di machine learning juga?
Yepp, gaussian ini salah satu teknik yang bisa digunain di machine learning, loh! Nah, sebagai salah satu dari metode Bayesian, gaussian ini juga melakukan prediksi berdasarkan suatu ketidakpastian.
Gaussian model ini adalah kurva lonceng yang punya nilai mean=mode=median (center dari kurva), dan kita hanya butuh mean dan standar deviasi buat menjelaskan keseluruh distribusi ini.
Terus, Gaussian Mixture Model (GMM) tuh apa, sih? GMM itu salah satu algoritma buat mengklasterkan data, yang pastinya tiap cluster itu dimodelkan berdasarkan distribusi gaussian yang berbeda.
Memangnya apa tuh perbedaan dari tiap clusternya? GMM ini emang mengasumsikan kalau data berasal dari multi-dimensional (dimensi=cluster) gaussian distribution, tapi tiap cluster punya perbedaan di parameter kovarians, rata-rata, dan densitasnya.
Pusing? Engga dongg, mending liat gambar di bawah ini biar lebih kebayang. Kalo kita liat, ada tiga cluster yang masing2 berdistribusi normal. Kalo diteliti lagi, tiap cluster punya rata-rata dan varians yang beda.
Kita itu kan bisa membagi dua area utama di machine learning: supervised sama unsupervised learning. Perbedaan utamanya? Ya sifat dari data itu sendiri, dan juga pendekatan yang kita pake buat mengolah data tersebut.
Nah, clustering itu masuk ke unsupervised learning, loh. Di clustering, kita bakal mencari data yang memiliki karakteristik yang mirip dan akan kita pisahkan menjadi beberapa “grup” atau “cluster” berdasarkan kemiripan karakteristik tadi.
Inget selalu tujuan utama kita dalam membentuk model: memaksimalkan likelihood. Karena GMM ini multi-dimensional, berarti kita bakal memaksimalkan marginal likelihood.
Tapi, ngitung rumus di atas secara langsung itu bakal sulit banget. Jadi, kita bakal pake yang namanya Expectation Maximization (EM) Algorithm: metode iterative buat ngoptimalin problem ketika fungsinya itu kompleks kayak rumus GMM.
Nah, GMM ini bekerja berdasarkan si algoritma EM ini. Jadi, si EM ini akan membantu untuk mencari tahu parameter dari distribusi gaussian ini. Caranya ada dua langkah dan cukup simpel, kok!
Pertama: Expectation Step (E-step). Kita bakal menduga parameter berdasarkan data yg ada. Nah, seluruh data point bakal “ditempatkan” di salah satu cluster gaussian, terus abis itu bakal dikalkulasi deh probabilitas data tersebut termasuk ke dalam cluster itu.
Kedua: Maximization Step (M-step) akan mengupdate parameter dari cluster berdasarkan kalkulasi dari E-step. Kita bakal ngitung rata2, kovarians, sama densitas data kita yang udah terklaster di E-step. Nah kedua proses ini bakal diulang terus sampe kita bisa mencapai konvergensi
Yuk kita kupas sedikit cara fitting GMM model di data. Kita bisa pake Scikit-learn for python di sini. n_component: banyaknya cluster, n_init: seberapa banyak algoritma diinisiasi. Akhirnya, bakal fitting prediction pakai fit_predict.
So the first question is: berapa jumlah cluster yang paling baik merepresentasikan data kita?
Caranya adalah: trial and error! Terus abis itu dievaluasi deh pake BIC atau AIC. Mereka bantu kita ngeliat mana cluster yang bisa maksimalin fungsi likelihood model. Ps: pilih AIC terkecil!
Buat full penggunaan GMM pake python, kamu bisa liat di repository ini: scikit-learn.org/stable/modules…
Emang apa sih kelebihan GMM ini dibanding clustering lain, seperti K-mean clustering yang lebih umum orang-orang gunain? Terus, apa sih kekurangan yang harus kita antisipasi kalo pake GMM ini?
Pertama, K-mean clustering itu cocok dan bagus kalo data kita tuh berbentuk lingkaran. Radius dari si lingkaran itu bakal ditentuin sama data terjauh dari pusat cluster.
Terus gmn kalo cluster kita bentuknya ga lingkaran, tapi oval atau bentuk lainnya? K- means ga akan merepresentasikan bentuk clusternya dengan baik, dong. Coba yuk perhatiin hasil clustering K-means (kiri) sama GMM (kanan). See the differences?
Walaupun K-means bisa ngasih tahu kita tiap data poin masuk ke cluster mana, tapi dia ga bisa ngasih tau kita probabilitas si data poin terkait benar masuk ke dalam cluster itu. Kayak yg udah disinggung di atas, GMM itu bisa ngitung probabilitas yg ga bisa diitung sama K-means
Terus apa nih kekurangan dari GMM ini, kok kayaknya udah keren banget ga ada kekurangannya?
Eits ada dong, saking telitinya si GMM ini, jadinya dia bakal gunain semua komponen yang bisa diakses. Bagus sih kalo gitu, cuma kalo dimensi dari datanya cukup besar, GMM ini bakal sulit buat membentuk cluster, saking banyaknya data yg diolah.
Selain itu, GMM ini butuh waktu lama buat dijalanin dibandingkan K-means. Terus, kadang suka ada error konvergensi ga bisa didapatkan. Kalo gitu, bisa jadi data kita ga cocok tuh buat pake GMM. Your data:
Nah, mau tau keseruan lebih lanjut terkait GMM dan pengaplikasiannya di machine learning? Atau malah penasaran gimana cara clustering kalo data kamu gabisa mencapai konvergensi GMM?

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Follow us on instagram: @pacmannai

Follow us on instagram: @pacmannai Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @pacmannai

15 Apr
Mau jadi DS tapi masih takut ngoding?🧑‍💻😉
Mulai dari Excel aja dulu!
.
.
.
A thread
Eits, jangan langsung serang mimin setelah baca judulnya. Ya, ya, ya, mimin paham kok reputasi excel masih jauh banget sama Python, R, Java, you name it lah. Tapi, buat pemula yang masih takut ngoding, excel ini bisa jadi alternatif buat kenalan dengan dunia per ds-an.
Lebih baik mencoba dari hal sederhana dulu kan daripada gak sama sekali?
Read 30 tweets
14 Apr
Mau sales meningkat drastis? 📈🤑
Kenalin dulu pola customer lewat association rule!

.
.
A thread
Siapa disini yang suka window shopping? Yang hobinya masukkin barang ke keranjang online tapi engga pernah di checkout haha
Fenomena ini menarik untuk dibahas deh seiring dengan banyaknya event-event dari e-commerce kayak tanggal cantik yang bikin kita tertarik banget buat belanja
Read 36 tweets
13 Apr
Emang ketidakteraturan bisa diukur?🤨🧐
Intro to entropy
.
.
.
A thread
Mungkin sebagian dari kita mengenal entropi sebagai suatu istilah dalam ilmu fisika khususnya topik termodinamika. Ternyata entropi ini gak cuma ada di fisika loh, dia juga ada di dalam statistik. Gimana tuh?
Oke, mari kita mulai dari suatu pembahasan yang sederhana. Misalkan kita punya 3 kotak. Kotak pertama berisi 4 bola merah, kotak kedua berisi 3 bola merah dan 1 bola biru, kotak ketiga berisi 2 bola merah dan 2 bola biru Image
Read 36 tweets
13 Apr
Ambis jadi Data Scientist bikin burnout? 🧑‍💻🤯
Yuk recharge dulu!
.
.
.
A thread
Pernah nggak kamu ngerasa muak banget sama kerjaan, ketika deadline kamu numpuk semua hari ini tapi kamu udah ngerasa capek begitu bangun tidur?
Well, lookout guys. Mungkin kamu lagi ngerasa apa yang disebut ‘burn out’.
Read 34 tweets
12 Apr
Ketika model too good to be true: pas training bagus, giliran dipakai klien anjlok?🧐🤔
Intro to data leakage
.
.
.
A thread
Pak Saryono adalah seorang guru matematika di SMA Tunas Bangsa. Suatu hari, ia kepikiran buat ngasih murid-muridnya sebuah set soal latihan beserta pembahasannya sebagai bahan persiapan menjelang pelaksanaan ujian akhir semester.
Guru mana sih yang nggak pengen nilai muridnya bagus-bagus? Nah, tanpa ada satupun yang tahu, Pak Saryono ini sengaja memasukkan soal-soal ujian akhir semester -- yang harusnya baru dilaksanakan minggu depan -- ke dalam set soal latihan!
Read 38 tweets
11 Apr
Mau terbebas dari panasnya neraka duniawi? Ini yang bisa machine learning lakukan!🥵🔥
Tackling climate change with machine learning.
.
.
.
A thread
Ngerasa gak sih, dari tahun ke tahun tuh rasanya tiap musim kemarau makin panas?
Ya wajar aja kalau ngerasa semakin panas. Sejak tahun 1981, temperatur bumi naik 0.18 derajat Celcius per dekadenya. Akibatnya tuh ga cuma sekedar ‘oh cuaca jadi makin panas’ aja guys, tapi lebih dari itu.
Read 33 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!