Emang ketidakteraturan bisa diukur?π€¨π§
Intro to entropy
.
.
.
A thread
Mungkin sebagian dari kita mengenal entropi sebagai suatu istilah dalam ilmu fisika khususnya topik termodinamika. Ternyata entropi ini gak cuma ada di fisika loh, dia juga ada di dalam statistik. Gimana tuh?
Oke, mari kita mulai dari suatu pembahasan yang sederhana. Misalkan kita punya 3 kotak. Kotak pertama berisi 4 bola merah, kotak kedua berisi 3 bola merah dan 1 bola biru, kotak ketiga berisi 2 bola merah dan 2 bola biru
Simple, kalo kita pengen ngambil bola dari kotak-kotak itu, maka kotak pertama bakal ngasi kemungkinan 100% terambil bola merah, kotak kedua ngasi 75% bola merah dan 25% bola biru, dan kotak ketiga ngasi 50% bola merah dan biru
Jadi bisa kita simpulkan bahwa kotak pertama ngasi informasi paling banyak tentang bola apa yang bakal terambil dari kotak tersebut, sedangkan kotak ketiga memberikan informasi paling sedikit
Nah, sederhananya entropi ini adalah lawannya informasi. Kalau tadi kotak pertama memberi informasi paling banyak, maka dari sudut pandang entropi, kotak pertama ini punya entropi yang paling rendah, sedangkan kotak ketiga punya entropi tertinggi
Agar bisa lebih ngebayangin, misalkan kita mau ngelempar koin dan mau tau peluang muncul gambar atau angka, maka hubungan probabilitas dan entropinya kaya gini (H(x) adalah nilai entropinya)
Keliatan ya, entropi terbesarnya tercapai ketika kita sama-sama gak tau sisi mana yang lebih berpeluang untuk muncul (50:50) dan entropi terendahnya tercapai ketika kita tau persis sisi mana yang muncul
Sekarang, gimana sih cara kita nentuin formula entropi ini? Mari kita bahas dengan menggunakan kasus 3 kotak tadi sebagai motivasinya
Misal kita punya games pake 3 kotak itu dengan aturan : Pertama kita pilih kotaknya dulu. Setelah itu bola bola di dalam kotaknya ditunjukkin ke kita sesuai urutannya. Abis itu kita disuruh ambil acak bolanya, dan kita catat bola apa yg udah kita ambil lalu kembalikan
Kalau misalnya urutan bola hasil catatan kita tadi sesuai dengan urutan pas ditunjukkin, kita menang. Sekarang kita mainin. Misal kita pilih kotak kedua dulu. Supaya kita menang, berarti kita mau urutan catatan kita adalah merah, merah, merah, biru
Berarti peluang bola pertama terambil warna merah adalah 0.75, bola kedua juga merah adalah 0.75, bola ketiga merah lagi adalah 0.75 dan bola keempat warna biru adalah 0.25
Karena kejadian ini independen, maka peluang kita menang adalah 0.75*0.75*0.75*0.25 = 0.105. Kalo langkah ini kita jalanin di kotak pertama dan ketiga maka kita punya peluang menang tiap kotak kaya gini
Tapi inget, entropi adalah kebalikannya informasi/peluang. Berarti kita pengen nilai yang ada di kotak pertama itu jadi yg paling kecil sedangkan pada kotak ketiga, nilainya yang paling gede. Gimana caranya? Logaritma! π
Salah satu kenapa entropi ini penting buat kita ketahui, karena entropi memakai operator logaritma, maka kalau ada nilai2 yang perlu dikalikan kaya tadi, entropi dengan logaritmanya hanya perlu menjumlahkan aja. Hayo jangan sampe lupa nih sama sifat log yg satu ini
Artinya tantangan kita sekarang adalah gimana caranya menghubungkan perkalian pada peluang tadi menjadi jumlahan pada entropi plus dengan memanfaatkan aturan log. Simak triknya and voila!
Untuk kasus-kasus peluang biner, kita bakal sering menggunakan basis logaritmanya adalah 2. Sehingga untuk kasus kotak kedua tadi, kita peroleh :
Lalu kita cari rata2nya, yaitu kita bagi 4. Jadi kita punya nilai entropi untuk kotak kedua adalah
Dari sini, kalau kita perumum kita bakal dapet rumus entropi yaitu :
Menggunakan rumus ini dan balik lagi ke kasus 3 kotak tadi, berarti kita punya entropi untuk masing2 kotak adalah
Nah algoritma Decision Tree ternyata memakai konsep entropi ini nih. Tapi ada 1 bahasan lagi yang harus kita tau, yaitu Information Gain.
Simple kok, information gain pada decision tree didapat dari selisih entropi dengan entropi yang diberi weight. Entropi yg diberi weight ini diperoleh dgn cara mengalikan entropi yang kita punya dengan jumlah data pada splitting treenya yg dibagi dengan jumlah data keseluruhan
Langsung contoh aja nih. Misalkan suatu bank mau nentuin apakah pinjaman nasabah bisa di write-off atau engga. Awalnya udah dikategorikan ada 16 orang yg bisa di write-off dan ada 14 yang tidak
Sekarang kita mau bikin decision tree didasari account balance. Misal kita split di balance yg <50K dan >=50K. Dari kelas write-off, ada 12 yg masuk di balance <50K dan ada 1 dari non write-off. Untuk yg >=50K, ada 4 write-off yg masuk dan ada 13 non write-off yg masuk
Dari gambar udah dikasih tau ya peluang masing2 kelas di tiap splittingnya. Berarti kita bisa dapetin entropi dari parent tree dan splitting tree balance <50K dan >=50K yaitu
Nah weighted entropy itu tinggal kita kaliin aja entropi di balance <50K dengan 13/30 (karena ada 13 data dari 30) dan yg balance >=50K dengan 17/30. Tinggal dijumlahkan deh
Dengan demikian kita punya nilai Information Gainnya adalah 0.99-0.62 = 0.37. Ini maknanya adalah jika kita melakukan splitting berdasarkan feature balance, maka informasi yg bisa kita dapatkan itu sekitar 0.37
Selanjutnya kita coba splitting dgn dasar residence, yaitu mengkategorikan lewat rumah/propertinya yaitu own, rent, dan selain 2 itu.
Dengan prinsip perhitungan yang sama, kita peroleh nilai entropi masing-masing kategori adalah sekitar 0,54 ; 0.97 ; 0.98. Sehingga nilai weighted entropynya adalah 0.86. Diperoleh nilai information gainnya 0.13
Berarti kalau kita split menggunakan feature residence, maka informasi yang bisa kita dapat sekitar 0.13. Berarti informasi yang bisa kita dapatkan dari account balance 3 kali lebih banyak daripada residence
Dengan demikian algoritma decision tree akan melakukan splitting pertama menggunakan feature balance dulu karena punya informasi yang lebih besar dan akan memanfaatkan entropi dan information gain ini terus menerus untuk splitting berikutnya. More on : towardsdatascience.com/entropy-how-deβ¦
Jadi entropi udah ngajarin kita gimana sih cara kita mengukur suatu kerandoman dan udah membantu kita untuk membangun salah satu algoritma yang cukup terkenal. Kalau mau memperdalam aplikasi entropy ini gimana, bisa banget belajar di non degree program DS Pacmann.AI
Mumpung pendaftaran batch 3 sudah dibuka, langsung aja daftarin diri kalian di bit.ly/PendaftaranNon⦠atau kalau ada yang ingin ditanyakan terkait kurikulum, fasilita, dan pembayaran, Pacmann siap membalas di bit.ly/WASalesPacmann
Atau kalau kalian mau tau, gimana sih rasanya belajar sama Pacmann? Yuk cobain dengan ikutan #Pacbuburit Workshop Series! π Simak infonya dibawah ini yaaa, friends! π
Untuk upcoming event #Pacbuburit Free Webinar, ada banget nih! Terutama buat kalian yang background nya dari Ilmu Sosial π Save the date and Register now! π
Mau clustering data?
Lebih oke gaussian mixture model atau k-means?π§π€
.
.
.
A thread
Gaussian pasti bukan kata yang asing lagi buat kita semua, kan? Distribusi Gaussian, yang diperkenalkan oleh Carl Friedrich Gauss, biasanya kita kenal dengan nama lain distribusi normal.
Sebelumnya, yuk kenalan sama gaussian process dulu. Kalian tau gak sih, sebenernya gaussian process ini cuma berguna di ranah statistika, atau bisa diimplementasikan di machine learning juga?
Mau jadi DS tapi masih takut ngoding?π§βπ»π
Mulai dari Excel aja dulu!
.
.
.
A thread
Eits, jangan langsung serang mimin setelah baca judulnya. Ya, ya, ya, mimin paham kok reputasi excel masih jauh banget sama Python, R, Java, you name it lah. Tapi, buat pemula yang masih takut ngoding, excel ini bisa jadi alternatif buat kenalan dengan dunia per ds-an.
Lebih baik mencoba dari hal sederhana dulu kan daripada gak sama sekali?
Mau sales meningkat drastis? ππ€
Kenalin dulu pola customer lewat association rule!
.
.
A thread
Siapa disini yang suka window shopping? Yang hobinya masukkin barang ke keranjang online tapi engga pernah di checkout haha
Fenomena ini menarik untuk dibahas deh seiring dengan banyaknya event-event dari e-commerce kayak tanggal cantik yang bikin kita tertarik banget buat belanja
Ketika model too good to be true: pas training bagus, giliran dipakai klien anjlok?π§π€
Intro to data leakage
.
.
.
A thread
Pak Saryono adalah seorang guru matematika di SMA Tunas Bangsa. Suatu hari, ia kepikiran buat ngasih murid-muridnya sebuah set soal latihan beserta pembahasannya sebagai bahan persiapan menjelang pelaksanaan ujian akhir semester.
Guru mana sih yang nggak pengen nilai muridnya bagus-bagus? Nah, tanpa ada satupun yang tahu, Pak Saryono ini sengaja memasukkan soal-soal ujian akhir semester -- yang harusnya baru dilaksanakan minggu depan -- ke dalam set soal latihan!
Mau terbebas dari panasnya neraka duniawi? Ini yang bisa machine learning lakukan!π₯΅π₯
Tackling climate change with machine learning.
.
.
.
A thread
Ngerasa gak sih, dari tahun ke tahun tuh rasanya tiap musim kemarau makin panas?
Ya wajar aja kalau ngerasa semakin panas. Sejak tahun 1981, temperatur bumi naik 0.18 derajat Celcius per dekadenya. Akibatnya tuh ga cuma sekedar βoh cuaca jadi makin panasβ aja guys, tapi lebih dari itu.