Reduksi data tanpa ngilangin informasi pentingnya, emang bisa?πŸ€”πŸ€”πŸ€”
Intro to PCA : Aplikasi Eigenvector
.
.
.
A thread
Misalkan kalian diberikan data tentang mobil-mobil di suatu kota yang datanya berisi harga mobil, merk mobil, ukuran mobil, jenis mesin, kapasitas tangki, tahun perakitan, bahan body, dan lain-lain
Tapi kalian juga mikir nih, apakah semua data itu dibutuhin pas kita mau analisis datanya? Pastinya kita pengen dong meminimalisir data yang kita pakai tapi di lain sisi kita juga ga boleh kehilangan sedikitpun informasi
Nah gimana sih caranya kita handle kendala simplisitas data terhadap kebutuhan informasi ini?
Principal Component Analysis (PCA) adalah jawabannya!
Motivasi PCA ini adalah kita ingin menghasilkan suatu variabel baru dengan memanfaatkan variabel lama. Bahasa matematikanya, variabel baru ini bisa kita sajikan sebagai kombinasi linear dari variabel lama
Tapi kombinasi disini ga sembarangan nih pembuatannya. Aturan utamanya adalah para variabel baru tadi harus tidak saling berkorelasi dan sebelum kita buat kombinasi dari variabel lama, informasi penting dari variabel lamanya udah harus kita pisahin dulu
Jadi, kalau kalian punya data dengan dimensi K yang memberikan principal component (PC) sebanyak K, maka pertama kali PCA akan ngebantu kalian untuk maksimalin informasi yang ada lalu ngebantu buat ngecilin dimensi data tadi
Nah yang diukur sebagai informasi disini adalah variansi. PC dapat dipandang secara geometris sebagai vektor data pada ruang berdimensi tinggi yang ketika direduksi dipandang sebagai vektor proyeksi terhadap subruang yg dimensinya lebih kecil
Berarti PC pertama itu melambangkan kemungkinan variansi terbesar, PC kedua melambangkan kemungkinan variansi terbesar kedua, dan seterusnya dengan syarat tiap PC ini harus tidak saling berkorelasi
Kayanya udah keliatan ya kalo di PCA ini kita bakal cukup sering bersinggungan dengan aljabar linear. So, mari kita bedah konsep-konsep aljabar linear apa aja yang ada disini!
Matriks kovarian. Matriks kovarian adalah matriks persegi yang berisi kovarian antar data dan diagonal utamanya berisi variansi tiap data. Contohnya untuk ukuran 2x2 berarti ada 2 data X dan Y maka matriksnya kaya gini:
Nah karena Cov(x,y) = Cov(y,x) maka matriks kovarian ini akan berupa matriks simetri (matriks transposenya sama dengan matriks aslinya). Matriks kovarian ini isinya dapat berubah2 tergantung shape data kita kaya gimana
Fyi, ketika 2 data berkorelasi, nilai Covnya akan positif, jika tidak maka Covnya negatif. Dan jika ga bisa disimpulkan berkorelasi atau tidak, nilai Covnya 0
Sekarang coba perhatiin matriks kovarian ini menyatakan sebaran (variansi) dan orientasi arah (kovarian) suatu data. Ada arah, ada besaran. Apakah itu? βœ…YES, vektor! Nah vektor yang kita omongin disini adalah vektor yang terkenal banget, yaitu eigenvector
Sebelum masuk detail kesitu, ini contoh konstruksi eigenvector dari matriks kovarian tadi. Eigenvector menyatakan vektor yang arahnya menuju variansi terbesar dan eigenvalue akan menyatakan panjang vektornya
Basically, eigenvector (dinotasikan v) merupakan hasil suatu transformasi linear yang membuat eigenvector tsb diskalakan oleh suatu skalar yang namanya eigenvalue (dinotasikan lambda)
Nah kalau transformasinya dikerjakan oleh suatu matriks A, inilah persamaan yang sering banget kita temuin:
Untuk mencari eigenvaluenya, kita cari determinan dari A-LambdaI yang nantinya pasti berbentuk polinomial. Ketika polinomial ini disamadengankan 0, maka akar-akar polinomial itulah yang menjadi eigenvalue kita
Baru deh setelah itu tiap lambda yang kita punya tadi, kita substitusiin lagi supaya kita bisa dapetin eigenvector yg bersesuaian dengan eigenvaluenya. Contohnya kaya gini:
Nah kira-kira kapan sih konsep eigenvector ini dipakai di matriks kovarian tadi? Inget kan di awal banget kita pengen ngurutin PC pertama, kedua, dan seterusnya?
Selanjutnya kita pengen ada suatu vektor V yang ketika dikalikan dengan matriks kovarian (sigma) maka ia merupakan hasil dari perkalian suatu koleksi skalar (lambda) yang kita namain L
Biar bisa ngebayanginnya, kita balik lagi memakai 2 data kaya di atas, maka yang kita punya dari persamaan tadi adalah
Jika kita urutkan eigenvector ini, maka v1 akan menjadi data dengan sebaran terbesar, v2 adalah yg terbesar kedua, dan seterusnya.
Next, inget juga nih PCA tadi juga pengen bantuin kita untuk mereduksi dimensi data. Gimana caranya?πŸ€”
Misalkan ada 5 komponen data dan kita ingin mereduksi jadi 2 aja. Pertama kita standarisasi dulu datanya pake rumus ini
Selanjutnya kita hitung dulu kovarian dan variansinya lalu kita buat matriks kovariannya, yang artinya berukuran 5x5.
Setelah itu kita hitung eigenvalue dari matriks sigma ini dan selanjutnya kita dapet deh masing-masing eigenvector yang bersesuaian
Setelah itu kita urutin eigenvector dari nilai terbesar sampai yang terkecil tapi sesuai batasan reduksi kita. Pada kasus ini berarti kita urutin dari yang pertama sampai yang ketiga
Dalam kasus kita, setiap eigenvector itu mengoleksi 5 vektor nilai, jadi yang kita ambil itu nilai vektor terbesar pertama sampai terbesar ketiga dari 5 vektor tadi pada setiap eigenvector. Artinya kita mengumpulkan sebanyak 3x5=15 nilai vektor
Padahal dalam matriks tersebut ada 25 vektor, berarti 10 sisanya tadi kita bawa ke dalam matriks berukuran 5x2. Matriks ini biasanya kita sebut sebagai matriks proyeksi W
Nah data yg sudah distandarisasi tadi kita kalikan deh dengan matriks W ini. Jadi kita udah punya data baru dengan banyaknya baris sesuai dengan data aslinya namun banyaknya kolom udah jadi 2 doang
Baru deh kita bisa mulai analisis data lagi dengan data yang baru ini. Buat contoh detail pengerjaannya bisa kalian baca disini ya towardsdatascience.com/principal-comp…
Atau kalau kalian mau belajar gimana sih cara mengolah data, non degree program Data Scientist Pacmann.AI bisa jadi solusinya! Sebentar lagi, pendaftaran batch 3 dibuka, persiapkan diri kalian ya! 🀩
Sambil menunggu pembukaan pendaftaran, kalian bisa kepoin dulu kurikulum Data Scientist kami di bit.ly/brosurpacmannai atau kalau ada yang ingin ditanyakan, bisa chat kami di bit.ly/WASalesPacmann. Sampai ketemu di thread berikutnya yaa!πŸ˜ŠπŸ‘‹πŸΌ

β€’ β€’ β€’

Missing some Tweet in this thread? You can try to force a refresh
γ€€

Keep Current with Follow us on instagram: @pacmannai

Follow us on instagram: @pacmannai Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @pacmannai

23 Mar
Itung itungan di lapangan: NBA dan Data Scientist
.
.
.
A thread πŸ€πŸ€πŸ€ Image
β€œMin aku tuh pengen berkarir di bidang lain sebenarnya, tapi keburu kecemplung di data sains:(β€œ Siapa yang gini jugaa, ngakuu!
Ga usah khawatir guys. Salah satu benefit dari menekuni data science adalah bidang ini dibutuhin dimanapun. Malah, data scientist yang baik adalah data scientist yang punya domain knowledge, alias pengetahuan di bidang lain di luar pengolahan data.
Read 34 tweets
21 Mar
Polemik membuat seni menggunakan machine learning
.
.
.
A thread
*pict: Wikimedia
Kita semua setuju kalau machine learning punya banyak kegunaan dan bisa diterapkan di berbagai bidang, salah satunya adalah seni. Iya, kalian bisa banget membuat karya seni seperti lukisan menggunakan machine learning.
Gimana tuh caranya? Di thread sebelumnya, mimin pernah bahas machine learning bisa menciptakan karya seni. Kalian bisa baca ulang threadnya disini yaa
Read 33 tweets
21 Mar
Membuat data bernilai bagi bisnis, sebuah tips.
.
.
.
A thread
Kalian tau gak sih, MIT Sloan Management Review bersama dengan IBM menemukan bahwa perusahaan-perusahaan yang unggul dalam sebuah industri itu melakukan data analytics 5 kali lebih tinggi dibandingkan dengan perusahaan yang kurang unggul.
Hayoo, siapa yang disini tempat kerja nya udah mengambil keputusan berbagai level berdasarkan data?
Read 31 tweets
20 Mar
#GaliData 3: Survei Angkatan Kerja Nasional (SAKERNAS)
.
.
.
A thread
Haloo haloo, balik lagi di segmen #GaliData! Di weekend inii, mimin bakal ngulik tentang Sakernas. Hayo, siapa nih yang udah familiar sama Sakernas?
Kalau kalian baru pernah dengar apa itu Sakernas atau cuma tau nama nya doang, this thread is for you!
Read 37 tweets
17 Mar
LOWONGAN PEKERJAAN
Business Development [FULL TIME, REMOTE]

PACMANN Group adalah sebuah perusahaan konsultan data dengan fokus pada business optimization menggunakan modeling Operation Research, Statistics dan Machine Learning.
Selain itu kami juga membuat berbagai pelatihan Business Intelligence, Statistics, Machine Learning, dan Operation Research.
Saat ini kami sedang berencana untuk mengekspansi lini bisnis kami sehingga kami membutuhkan Business Development untuk membantu kami dalam menstandarisasi operasional lini bisnis baru, dan pengembangan Business Process.
Read 4 tweets
17 Mar
Gimana caranya mesin memahami bahasa manusia?
.
.
.
A Thread
Komunikasi adalah suatu hal yang paling esensial dalam kehidupan manusia. Tidak dipungkiri setiap hari kita melakukan komunikasi baik kepada keluarga, teman, tetangga, maupun sahabat
Tapi kebayang ga sih hidup tanpa komunikasi, pasti bakal sulit banget untuk mengerti maksud lawan bicara kita. Apalagi kalau yang pacaran.. pasti bisa berantem terus dehh
Read 38 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!