Feature Selection Buat Data Numerik? Intro to Analysis of Variance
.
.
.
A thread
Pernah ga sih kalian mau ngelakuin feature selection, terus bingung harus pake metode apa? Atau malah asal pake metode aja?
Banyak metode untuk melakukan feature selection, tapi apa kalian tahu perbedaan dari tiap metode itu? Metode mana yang cocok sama data kita?
Nah, kadang tuh kita tau metode kayak Pearson, Spearman’s, Kendall’s. Kita tau juga gimana cara makenya, tapi kadang gatau kapan waktu yang tepat buat make metode itu. bener gak nih?
Jadi, pemilihan metode ini dilakuin berdasarkan jenis input dan output variabel yang kamu punya, apakah numerikal atau kategorikal? Mimin udah sering lah ya ngomongin perbedaannya, jadi pasti udah pada tau.
Gimana cara nentuinnya? Ini ada panduan cara nentuin metode buat feature selection, nih. Kalian bisa tinggal ngikutin aja berdasarkan jenis input dan output variabel kalian. Image
Kadang, ada kasus dimana input variabel kita itu berbentuk numerik, tapi hasilnya berbentuk kategorik.
Kalian bisa liat kalo kita bisa pake ANOVA dan Kendall’s. Apa beda dari keduanya? Jadi, ANOVA itu uji parametrik, sedangkan Kendall’s uji non parametrik.
Perbedaan paling menonjol dari keduanya adalah ketika kamu mau menggunakan uji parametrik, datanya harus memenuhi asumsi distribusi normal. Kalau ga memenuhi, langsung cusss pake non parametrik.
Image
Kalo ditanya metode mana yang paling bagus buat feature selection? Jawabannya adalah: gaada metode yang lebih bagus dari yang lainnya. Adanya metode yang lebih cocok buat karakteristik data kamu.
Jadi gitu ya, perbedaan penggunaan metode feature selection. Sekarang, mimin mau jelasin terkait ANOVA, nih. Pasti temen-temen statistik udah sering pake, deh. Cuma, disini mimin mau kasih tau penerapannya di ML.
Sebenernya ANOVA itu apa, sih? ANOVA ini mirip sama t-test. Bedanya, ANOVA itu memungkinkan kita buat nguji hipotesis ketika independen variabelnya punya lebih dari dua faktor. ANOVA juga bisa dipake buat penelitian eksperimen.
Image
Nah, kenapa mimin jelasin ANOVA sih, bukan Kendall’s? Karena biasanya, kita sebisa mungkin lebih baik pakai uji parametrik dulu karena lebih mudah. Image
Tapi, buat pake uji parametrik, perlu ada asumsi yang harus dipenuhi dulu, nih. Uji ANOVA juga begitu. Kalo asumsinya ga terpenuhi, baru deh pake uji non parametrik.
Asumsi pertama, data harus berasal dari populasi yang berdistribusi normal. Uji normalitas bisa dilakuin dengan beberapa cara, seperti plotting histogram atau QQplot dari data. ImageImage
Asumsi pertama, data harus berasal dari populasi yang berdistribusi normal. Uji normalitas bisa dilakuin dengan beberapa cara, seperti plotting histogram atau QQplot dari data.
Kedua, homogenitas varians. Artinya, varians dari data harus homogen. Ngecek varians homogen atau tidak bisa pake boxplot, atau plottingan datanya. Kalo diliat, data yang memenuhi itu adalah data yg di sebelah kiri. Image
Terakhir, tiap variabel dari data harus independen satu sama lain. Jadi, antar variabel itu tidak bergantung satu sama lain, ya!
ANOVA ini ada dua tipe, one way dan two way. Bedanya terletak di faktor yang ada di data kita. One-way dipake buat satu independen variabel, two-way dipake buat dua. Image
Loh, bukannya anova dipake buat uji lebih dari dua kelompok, kok bisa cuma satu independen variabel?
Gini ceritanya guys, misal nih kita mau liat apakah ada pengaruh dari perbedaan dosis obat terhadap kesembuhan pasien. faktornya ada satu, yaitu obat. Tapi, obat ini punya beberapa jenis atau level, yaitu dosis obatnya. Image
Tapi nanti akhirnya mah kesimpulannya berkutat dengan si faktornya, yaitu obat. Apakah perbedaan level dari faktor ini mempengaruhi output (kesembuhan pasien) secara signifikan?
Tujuan akhir dari ANOVA ini emang kita bakal liat apakah perbedaan yang signifikan antar kelompok. Nah, penerapan ANOVA di feature selection itu di sini, nih.
Ketika terbukti ada perbedaan signifikan, kita bisa ngelakuin uji lanjut buat liat sebenernya kelompok atau fitur mana sih yang lebih signifikan buat masuk model.
Gimana cara pake ANOVA di Python? Cara termudahnya, kita bisa pake library Scikit-Learn dengan fungsi f_classif() kayak gini, nih: Image
Nah, kalo liat dari gambar sebelumnya, kita harus define feature selectionnya dulu, kita bisa pake salah satu dari dua selection method ini: top k variable atau top percentile variable.
Di sini, kita bakal pake SelectKBest dari top k variable buat liat fitur mana yang terbaik dari seluruh fitur yang ada.
Kita bisa milih berapa fitur yang bakal diambil. Kalo di sini, dari 100 sampel dan 20 fitur yang ada, bakal diambil 2 fitur teratas yang paling signifikan terhadap output variabelnya (k=2)
Hasilnya, bentuk dari X_selected adalah data dengan 100 sampel (baris) dan 2 fitur (kolom), yang tadi jumlahnya udah kita tentuin.
Kalo udah ngerti konsep ANOVA-nya, emang cukup mudah diterapin pake machine learning. Kalo ngitungnya manual mah baru puyeng, hehehe.Gimana, seru ga belajar fundamental dari machine learning kayak gini?
Kalo pengen belajar lebih dalam lagi, yuk ikut non-degree Data Scientist atau Business Intelligence Pacmann! Kepoin dulu yuk kurikulumnya di bit.ly/PacmannioTwitt…

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with IG: @pacmannai

IG: @pacmannai Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @pacmannai

9 Jul
Mimin dulu belajar coding html di notepad berasanya udah keren banget gasih?! 😆😅
Dulu inget banget nih, belajarnya pas pelajaran komputer waktu SMP. Sekelas terseok-seok belajarnya, tapi begitu dijalanin dan bisa, pada teriak-teriak saking kesenengan karena keren 😂🤣
Dan tentunya yang paling jago coding di kelas jadi anak kesayangan guru dan selalu disamperin anak-anak lain buat ditanyain 😂
Read 8 tweets
8 Jul
Building data scientist portfolio to land a job
.
.
.
A thread
Menurut kalian, penting ga sih seorang DS punya portfolio?
Pernah ga kalian liat job opening buat entry level yang requirementnya gak masuk akal? Udah mah fresh graduate tapi minimal punya beberapa tahun experience, misalnya? Image
Read 34 tweets
7 Jul
Cicilan Non-Degree Program Pacmann 0% Bunga

Emang bisa??
Bisa dong! Pacmann mengerti banget nih, di masa ini adalah masa yang sulit bagi banyak orang, dan kita berharap semuanya sehat dan baik2 aja.
Walaupun demikian, semoga hal ini tidak menjadi penghalang bagi teman2 yang ingin belajar dan merintis karir di dunia data!
Read 14 tweets
21 Jun
Gini loh cara abang kurir nyari jalan tikus🛵🐀
Introduction to Particle Swarm Optimization
.
.
.
A thread
“MISI PAKETTT!!”

Hayoo siapa yang semangat waktu dengar kata itu. Mimin yakin deh, yang awalnya mager dan rebahan pasti langsung semangat. 11-12 lah sama keterima SBMPTN 🤣🤪
Tapi kalian pernah kepikiran gak sih jalan tikus si abang kurir? Coba tebak mereka nemunya dari mana hayoo
Read 34 tweets
20 Jun
Nurunin cost of production dengan scheduling ?!⌛️💸
Kenalan sama job shop problem yuk!
.
.
.
A thread
Dengan begitu banyaknya model baju yang diproduksi oleh 1 brand aja, kadang mimin mikir gimana ya alur produksinya, apalagi mesin yang digunakan buat semua model baju itu sama.
Lebih tepatnya gini, gimana sih cara pabrik ngatur jadwal pemakaian mesin mereka untuk memproduksi berbagai model baju yang berbeda?
Read 34 tweets
19 Jun
Disini yang pecinta bola pada suka main fantasy football ga hahaha 😂

Tbh permainan macem gitu tuh secara ga langsung ngelatih intuisi dan sense predictive kita gak sih?
Iya lah, kalo engga pilih pemainnya pake intuisi ya pake stats dia di lapangan.

Sama aja kayak kasus optimisasi kan? Gimana memaksimalkan budget yang ada dengan harapan dapet poin sebesar-besarnya
Dan engga sedikit lho orang yang bener-bener meniatkan diri untuk main ini 😂

FYI aja yang menang FPL 2 musim lalu itu Dr Joshua Bull, seorang doktor di Oxford Mathematics 🤣
Read 5 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!

:(