Emang ketidakteraturan bisa diukur?🀨🧐
Intro to entropy
.
.
.
A thread
Mungkin sebagian dari kita mengenal entropi sebagai suatu istilah dalam ilmu fisika khususnya topik termodinamika. Ternyata entropi ini gak cuma ada di fisika loh, dia juga ada di dalam statistik. Gimana tuh?
Oke, mari kita mulai dari suatu pembahasan yang sederhana. Misalkan kita punya 3 kotak. Kotak pertama berisi 4 bola merah, kotak kedua berisi 3 bola merah dan 1 bola biru, kotak ketiga berisi 2 bola merah dan 2 bola biru Image
Simple, kalo kita pengen ngambil bola dari kotak-kotak itu, maka kotak pertama bakal ngasi kemungkinan 100% terambil bola merah, kotak kedua ngasi 75% bola merah dan 25% bola biru, dan kotak ketiga ngasi 50% bola merah dan biru
Jadi bisa kita simpulkan bahwa kotak pertama ngasi informasi paling banyak tentang bola apa yang bakal terambil dari kotak tersebut, sedangkan kotak ketiga memberikan informasi paling sedikit
Nah, sederhananya entropi ini adalah lawannya informasi. Kalau tadi kotak pertama memberi informasi paling banyak, maka dari sudut pandang entropi, kotak pertama ini punya entropi yang paling rendah, sedangkan kotak ketiga punya entropi tertinggi
Agar bisa lebih ngebayangin, misalkan kita mau ngelempar koin dan mau tau peluang muncul gambar atau angka, maka hubungan probabilitas dan entropinya kaya gini (H(x) adalah nilai entropinya) Image
Keliatan ya, entropi terbesarnya tercapai ketika kita sama-sama gak tau sisi mana yang lebih berpeluang untuk muncul (50:50) dan entropi terendahnya tercapai ketika kita tau persis sisi mana yang muncul
Sekarang, gimana sih cara kita nentuin formula entropi ini? Mari kita bahas dengan menggunakan kasus 3 kotak tadi sebagai motivasinya
Misal kita punya games pake 3 kotak itu dengan aturan : Pertama kita pilih kotaknya dulu. Setelah itu bola bola di dalam kotaknya ditunjukkin ke kita sesuai urutannya. Abis itu kita disuruh ambil acak bolanya, dan kita catat bola apa yg udah kita ambil lalu kembalikan
Kalau misalnya urutan bola hasil catatan kita tadi sesuai dengan urutan pas ditunjukkin, kita menang. Sekarang kita mainin. Misal kita pilih kotak kedua dulu. Supaya kita menang, berarti kita mau urutan catatan kita adalah merah, merah, merah, biru Image
Berarti peluang bola pertama terambil warna merah adalah 0.75, bola kedua juga merah adalah 0.75, bola ketiga merah lagi adalah 0.75 dan bola keempat warna biru adalah 0.25
Karena kejadian ini independen, maka peluang kita menang adalah 0.75*0.75*0.75*0.25 = 0.105. Kalo langkah ini kita jalanin di kotak pertama dan ketiga maka kita punya peluang menang tiap kotak kaya gini Image
Tapi inget, entropi adalah kebalikannya informasi/peluang. Berarti kita pengen nilai yang ada di kotak pertama itu jadi yg paling kecil sedangkan pada kotak ketiga, nilainya yang paling gede. Gimana caranya? Logaritma! 😊
Salah satu kenapa entropi ini penting buat kita ketahui, karena entropi memakai operator logaritma, maka kalau ada nilai2 yang perlu dikalikan kaya tadi, entropi dengan logaritmanya hanya perlu menjumlahkan aja. Hayo jangan sampe lupa nih sama sifat log yg satu ini Image
Artinya tantangan kita sekarang adalah gimana caranya menghubungkan perkalian pada peluang tadi menjadi jumlahan pada entropi plus dengan memanfaatkan aturan log. Simak triknya and voila! Image
Untuk kasus-kasus peluang biner, kita bakal sering menggunakan basis logaritmanya adalah 2. Sehingga untuk kasus kotak kedua tadi, kita peroleh : Image
Lalu kita cari rata2nya, yaitu kita bagi 4. Jadi kita punya nilai entropi untuk kotak kedua adalah Image
Dari sini, kalau kita perumum kita bakal dapet rumus entropi yaitu : Image
Menggunakan rumus ini dan balik lagi ke kasus 3 kotak tadi, berarti kita punya entropi untuk masing2 kotak adalah Image
Nah algoritma Decision Tree ternyata memakai konsep entropi ini nih. Tapi ada 1 bahasan lagi yang harus kita tau, yaitu Information Gain.
Simple kok, information gain pada decision tree didapat dari selisih entropi dengan entropi yang diberi weight. Entropi yg diberi weight ini diperoleh dgn cara mengalikan entropi yang kita punya dengan jumlah data pada splitting treenya yg dibagi dengan jumlah data keseluruhan
Langsung contoh aja nih. Misalkan suatu bank mau nentuin apakah pinjaman nasabah bisa di write-off atau engga. Awalnya udah dikategorikan ada 16 orang yg bisa di write-off dan ada 14 yang tidak
Sekarang kita mau bikin decision tree didasari account balance. Misal kita split di balance yg <50K dan >=50K. Dari kelas write-off, ada 12 yg masuk di balance <50K dan ada 1 dari non write-off. Untuk yg >=50K, ada 4 write-off yg masuk dan ada 13 non write-off yg masuk Image
Dari gambar udah dikasih tau ya peluang masing2 kelas di tiap splittingnya. Berarti kita bisa dapetin entropi dari parent tree dan splitting tree balance <50K dan >=50K yaitu
Nah weighted entropy itu tinggal kita kaliin aja entropi di balance <50K dengan 13/30 (karena ada 13 data dari 30) dan yg balance >=50K dengan 17/30. Tinggal dijumlahkan deh
Dengan demikian kita punya nilai Information Gainnya adalah 0.99-0.62 = 0.37. Ini maknanya adalah jika kita melakukan splitting berdasarkan feature balance, maka informasi yg bisa kita dapatkan itu sekitar 0.37
Selanjutnya kita coba splitting dgn dasar residence, yaitu mengkategorikan lewat rumah/propertinya yaitu own, rent, dan selain 2 itu. Image
Dengan prinsip perhitungan yang sama, kita peroleh nilai entropi masing-masing kategori adalah sekitar 0,54 ; 0.97 ; 0.98. Sehingga nilai weighted entropynya adalah 0.86. Diperoleh nilai information gainnya 0.13
Berarti kalau kita split menggunakan feature residence, maka informasi yang bisa kita dapat sekitar 0.13. Berarti informasi yang bisa kita dapatkan dari account balance 3 kali lebih banyak daripada residence
Dengan demikian algoritma decision tree akan melakukan splitting pertama menggunakan feature balance dulu karena punya informasi yang lebih besar dan akan memanfaatkan entropi dan information gain ini terus menerus untuk splitting berikutnya. More on :
towardsdatascience.com/entropy-how-de…
Jadi entropi udah ngajarin kita gimana sih cara kita mengukur suatu kerandoman dan udah membantu kita untuk membangun salah satu algoritma yang cukup terkenal. Kalau mau memperdalam aplikasi entropy ini gimana, bisa banget belajar di non degree program DS Pacmann.AI
Mumpung pendaftaran batch 3 sudah dibuka, langsung aja daftarin diri kalian di bit.ly/PendaftaranNon… atau kalau ada yang ingin ditanyakan terkait kurikulum, fasilita, dan pembayaran, Pacmann siap membalas di bit.ly/WASalesPacmann
Atau kalau kalian mau tau, gimana sih rasanya belajar sama Pacmann? Yuk cobain dengan ikutan #Pacbuburit Workshop Series! 😏 Simak infonya dibawah ini yaaa, friends! 😎
Untuk upcoming event #Pacbuburit Free Webinar, ada banget nih! Terutama buat kalian yang background nya dari Ilmu Sosial 😎 Save the date and Register now! 😊
Sampai bertemu di thread selanjutnya, ya! πŸ‘‹πŸΌπŸ‘‹πŸΌπŸ‘‹πŸΌ

Sumber : basicknowledge101.com/pdf/km/Entropy…

β€’ β€’ β€’

Missing some Tweet in this thread? You can try to force a refresh
γ€€

Keep Current with Follow us on instagram: @pacmannai

Follow us on instagram: @pacmannai Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @pacmannai

15 Apr
Mau clustering data?
Lebih oke gaussian mixture model atau k-means?πŸ§πŸ€”
.
.
.
A thread
Gaussian pasti bukan kata yang asing lagi buat kita semua, kan? Distribusi Gaussian, yang diperkenalkan oleh Carl Friedrich Gauss, biasanya kita kenal dengan nama lain distribusi normal. Image
Sebelumnya, yuk kenalan sama gaussian process dulu. Kalian tau gak sih, sebenernya gaussian process ini cuma berguna di ranah statistika, atau bisa diimplementasikan di machine learning juga?
Read 28 tweets
15 Apr
Mau jadi DS tapi masih takut ngoding?πŸ§‘β€πŸ’»πŸ˜‰
Mulai dari Excel aja dulu!
.
.
.
A thread
Eits, jangan langsung serang mimin setelah baca judulnya. Ya, ya, ya, mimin paham kok reputasi excel masih jauh banget sama Python, R, Java, you name it lah. Tapi, buat pemula yang masih takut ngoding, excel ini bisa jadi alternatif buat kenalan dengan dunia per ds-an.
Lebih baik mencoba dari hal sederhana dulu kan daripada gak sama sekali?
Read 30 tweets
14 Apr
Mau sales meningkat drastis? πŸ“ˆπŸ€‘
Kenalin dulu pola customer lewat association rule!

.
.
A thread
Siapa disini yang suka window shopping? Yang hobinya masukkin barang ke keranjang online tapi engga pernah di checkout haha
Fenomena ini menarik untuk dibahas deh seiring dengan banyaknya event-event dari e-commerce kayak tanggal cantik yang bikin kita tertarik banget buat belanja
Read 36 tweets
13 Apr
Ambis jadi Data Scientist bikin burnout? πŸ§‘β€πŸ’»πŸ€―
Yuk recharge dulu!
.
.
.
A thread
Pernah nggak kamu ngerasa muak banget sama kerjaan, ketika deadline kamu numpuk semua hari ini tapi kamu udah ngerasa capek begitu bangun tidur?
Well, lookout guys. Mungkin kamu lagi ngerasa apa yang disebut β€˜burn out’.
Read 34 tweets
12 Apr
Ketika model too good to be true: pas training bagus, giliran dipakai klien anjlok?πŸ§πŸ€”
Intro to data leakage
.
.
.
A thread
Pak Saryono adalah seorang guru matematika di SMA Tunas Bangsa. Suatu hari, ia kepikiran buat ngasih murid-muridnya sebuah set soal latihan beserta pembahasannya sebagai bahan persiapan menjelang pelaksanaan ujian akhir semester.
Guru mana sih yang nggak pengen nilai muridnya bagus-bagus? Nah, tanpa ada satupun yang tahu, Pak Saryono ini sengaja memasukkan soal-soal ujian akhir semester -- yang harusnya baru dilaksanakan minggu depan -- ke dalam set soal latihan!
Read 38 tweets
11 Apr
Mau terbebas dari panasnya neraka duniawi? Ini yang bisa machine learning lakukan!πŸ₯΅πŸ”₯
Tackling climate change with machine learning.
.
.
.
A thread
Ngerasa gak sih, dari tahun ke tahun tuh rasanya tiap musim kemarau makin panas?
Ya wajar aja kalau ngerasa semakin panas. Sejak tahun 1981, temperatur bumi naik 0.18 derajat Celcius per dekadenya. Akibatnya tuh ga cuma sekedar β€˜oh cuaca jadi makin panas’ aja guys, tapi lebih dari itu.
Read 33 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!