Pacmann Media Profile picture
Jun 18, 2021 25 tweets 7 min read Read on X
Regresi buat data kategorik?🧐
Introduction to logistic regression
.
.
.
A thread
Ketika kamu mau bikin model ML pake regresi tapi ternyata data kamu berbentuk kategorik, apa yang kamu lakukan?
Yep, pake regresi buat data kategorik! Loh emang bisa? Bisa dong, tapi pastinya bakal beda sama regresi linear biasa, soalnya kita bakal pake yang namanya regresi logistik.
Jadi, regresi logistik itu analisis regresi terkhusus buat data yang punya dependen variabel berbentuk kategorik. Independent variabelnya bisa berbentuk nominal, ordinal, interval, atau ratio.
Regresi logistik ada beberapa jenis, loh. Pertama ada binary reglog, yang responnya hanya terdapat dua jenis: 0 atau 1. Misalnya, apakah suatu email itu spam (yes=1) atau engga (no=0).
Terus, ada multinomial reglog yang bisa dipake ketika responnya berupa data dengan lebih dari dua kategori tanpa urutan. Misalnya, ketika mau prediksi celana apa yang paling diminati remaja: jeans, kulot, atau jogger?
Terakhir, ada ordinal reglog. Nah, regresi logistik yang satu ini sama dengan multinomial reglog, tapi kategorinya punya urutan. Misalnya movie rating, bisa dari 1 sampai 5.
Yuk sekarang kita ngomongin regresi logistik jenis pertama: reglog binary! Kita langsung ke case study aja biar lebih enak, ya.
Misal kita punya data tentang apakah seorang siswa lulus ujian atau engga berdasarkan banyaknya waktu buat tidur sama belajar. Dependent variabelnya (passed) itu berbentuk dikotomus: pake reglog!
Terus kalo data ini kita gambarkan jadi plot dengan studied dan slept sebagai sumbunya dan passed kita bedakan dengan perbedaan warna, jadinya bakal seperti ini:
Pertama, kita bakal pake fungsi logistic yang fungsinya buat menyamakan nilai Y pada fungsi linear dengan Y pada fungsi sigmoid. Fungsinya apa? Biar data kita ketransform dalam bentuk fungsi sigmoid.
Nah, kayaknya kita mulai dulu dari fungsi regresi linear, deh. Misal kita notasiin dependen variabelnya itu z, dengan independent variabelnya w, jadi kita punya persamaan ini:
Terus, kita bakal transformasi modelnya jadi fungsi sigmoid biar probabilitasnya ada di antara 0 dan 1, kira kira begini caranya:
Nah kita bakal mapping nilai prediksi ke probabilitasnya, jadi perlu pake fungsi sigmoid buat mapping nilai yang tadi ke value antara 0 dan 1. Hasilnya jadi grafik sigmoid ini:
Nah, sigmoid tadi kan masih berupa nilai probabilitas antara 0 dan 1, jadi kita masih harus mapping datanya jadi kelas diskrit: lulus atau ga lulus ujian. Jadi, kita bakal tentuin batas probabilitas buat masuk ke kelas diskrit kita.
Tapi sayangnya, kita gabisa pake mean square error kayak kalo kita pake buat regresi linear, jadi kita pake cost function yang namanya cross-entropy yang bakal dibagi jadi dua: buat y=1 dan y=0
Kenapa kita pake ini? Karena fungsi dari cross entropy punya bentuk yang monoton atau selalu turun/naik, jadi bakal gampang buat ngukur gradien dan minimalin nilai costnya.
Tujuan kita di sini adalah supaya nilai costnya itu sekecil mungkin. Jadi kita bakal pake gradient descent buat minimize costnya.
erus, kita bakal klasifikasikan nilai probabilitas ini jadi 2 kelas: 1 (lulus ujian) atau 0 (ga lulus ujian). Kita bisa klasifikasin jadi begini:
Nah, kita bakal bikin prediksi pake fungsi prediksi, yang bakal nentuin nilai probabilitas dari suatu observasi adalah yes (lulus=1) atau no (tdk lulus=0). Kita bisa nulis notasinya dengan P(lulus=1).
Terus kita bakal evaluasi model. Kalo model kita bekerja, nilai cost kita seharusnya bakal menurun semakin banyak iterasi yang kita lakukan.
Ternyata, model kita bekerja karena kalo grafik ini semakin menurun semakin banyak iterasi yang kita lakukan.
Kalo disandingin langsung, jadi begini:
Jadi begitulah regresi yang bisa dilakuin buat data yang berbentuk kategorik! Masih banyak yang bisa dieksplore dari regresi logistik ini, loh! Kamu mau belajar cara ngolah data kategorik lebih lanjut?
Bisa banget nih belajar dan langsung praktek di non degree program nya Data Scientist Pacmann.AI! Cek informasi lebih lengkap tentang kurikulumya di bit.ly/PacmannioTwitt…. Yuk daftar, mumpung masih ada potongan diskon 20% loh!

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Pacmann Media

Pacmann Media Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @pacmannai

Aug 18
Sudah serius belajar, tapi lupa materi yang baru aja dipelajari kemarin.

Itu wajar, tapi ada cara biar gak lupa menurut beberapa riset.

Kita bahas lebih lanjut ⬇️ From Elearning Industry
Sering kali kita terburu-buru belajar saat ujian sudah dekat, tapi cara ini sebenarnya tidak baik untuk jangka panjang.

Terlihat efektif saat hasil ujian keluar, tapi biasanya beberapa hari setelah ujian, materi yang dipelajari akan mudah lupa.
Riset lain juga menemukan bahwa mengulangi informasi terus menerus dalam sekali belajar juga percuma karena biasanya akan lupa dalam beberapa hari.
Read 17 tweets
Jun 8
Ketika kita ingin menjalankan banyak service dengan menggunakan docker tentu menghabiskan waktu jika kita melakukan konfigurasi dan menjalankannya satu per satu.

Oleh karena itu, kita bahas tentang Docker Compose hari ini!
Nah, kalo kita ingin melakukan konfigurasi dan menjalankan banyak service di docker kita dapat menggunakan "docker compose" untuk meminimalisir penggunaan waktu untuk konfigurasi dan menjalankan service-service tersebut.
Untuk mendefinisikan konfigurasi service dengan menggunakan docker compose kita cukup membuat file konfigurasinya dengan nama "docker-compose.yaml", "docker-compose.yml", atau nama lain dengan extensi file .yaml dan .yml.
Read 17 tweets
May 3
Pengen review santai paper yang lagi di-viral-KAN ini.

Sambil nungguin Jumatan, kita bahas Kolmogorov-Arnold Network yang disebut-sebut Neural Network 2.0 nih! ⬇️
Oiya, ini dari POV Mas Cahya @menarik_hm dalam mereview paper.

Jangan lupa share dan repost ke teman-teman kalian ya!
@menarik_hm Melihat summary-nya, terbayang perbedaan fundamental antara MLP dan KAN.

Di MLP (traditional NN), yang kita train adalah weight dengan architecture yang punya activation function yang fix.

Dalam KAN, ternyata kita bisa melakukan training di level activation function. Image
Read 28 tweets
Jan 27
Gak malam mingguan?

Gabut gak ngapa-ngapain?

Ngulik Python aja gan. Sini, pacmin berikan sumber belajarnya! Sumber belajar python Pacmann
Pertama, dari kampusnya Pak @tomlembong

Walaupun dari kampus ternama, tapi yang ini GRATIS!

Tersedia lecture video, lecture slide & lecture notes, style belajarnya kayak kuliah.

Link disertakan di akhir ya Pacpeers! Harvard CS50 from Reddit
@tomlembong Sumber kedua, dari ITB (Institut Teknologi di Boston).

Ada lecture video, source code Python dan bentuknya video course.

GRATIS juga nih! MIT OCW CS
Read 12 tweets
Jul 28, 2023
Sebutannya sih Exotic Pets, tapi harimau itu hewan peliharaan atau satwa liar sih? 🤬

Apakah memelihara harimau itu Konservasi atau Monetisasi?

Mari kita bahas~ Ilustrasi Influencer Kolektor Satwa Langka
AZ Animals melaporkan bahwa secara keseluruhan rata-rata populasi harimau di tahun 2023 kurang dari 10.000 ekor saja, baik di Alam liar maupun penangkaran.

Harimau tersebut dibagi ke dalam beberapa jenis, mulai dari Harimau Sumaterai hingga Harimau Indo Cina. Populasi Harimau Berdasarkan Jenisnya (2023)
Sayangnya, menurut kategorisasi IUCN Redlist, semua jenis harimau tersebut telah tercancam punah (ketika jumlah harimau menurun 50% sampai lebih dari 70% dalam 10 tahun terakhir) bahkan kritis (ketika jumlah harimau menurun 80% hingga lebih dari 90% dalam 10 tahun terakhir).
Read 34 tweets
May 31, 2023
Menyambung diskusi kemarin, kenapa sih Data Visualization itu jadi fundamental untuk Data Analyst dan Data Scientist?

Seberapa susahnya sih bikin grafik doang?

Baiklah, Pacmin bahas..... Worst Dataviz
Kenapa Dataviz itu fundamental banget berdasarkan diskusi dengan Lecture kami Mas Cahya.

Data Analyst dan Data Scientist itu adalah problem solver, sedangkan constraint mereka adalah waktu, tenaga dan uang. Jadi kita perlu metode paling sederhana untuk melakukan analisis.
Untuk Data Analyst dan Business Intelligence, salah satu jobdesk mereka adalah membuat Dashboard yang baik dan mudah dimengerti.

Tujuannya agar stakeholders bisa mengambil insights dan paham keadaan perusahaan saat ini, mentranslasikan data menjadi insight kemudian jadi action. Image
Read 22 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(