Duhh rumah sakit pada penuh!🏥🤧
Prediksi RS yang tersedia pakai Random Forest yuk!
.
.
.
A Thread
Gak kerasa ya PPKM sudah memasuki hari ke 10, atau malah kerasa banget? Yang penting tetap stay at home ya.
Seperti berita berita yang diliput media massa, ternyata kasus maraknya covid juga sampai ke sosial media. Banyak saudara kita yang terdampak dan sulit mendapatkan penanganan medis. Bahkan sudah banyak rumah sakit yang kewalahan dan overcapacity cnnindonesia.com/nasional/20210…
Dengan penuhnya rumah sakit, pelayanan medis semakin sulit terjangkau baik sekedar poliklinik maupun kegawatdaruratan
Makanya, data keluar-masuk pasien rumah sakit menjadi penting untuk memprediksi lamanya rawat inap / Length of Stay (LOS) guna menentukan alokasi pasien dalam suatu jaringan rumah sakit.
Melihat jumlah pasien dan rumah sakit yang sangat besar, tentu ga mungkin analisis secara manual. Nahh, disinilah Data Scientist berperan dalam penanganan COVID-19 dengan memprediksi Transfer Rate dari LOS pasien dalam suatu jaringan rumah sakit.
Yess, betul banget. Machine learning akan mempelajari data dari berbagai elemennya sehingga dapat memprediksi suatu kondisi dengan tingkat akurasi tertentu. Kalau sudah familiar, menurut kalian metode apa nihh yang paling handal dan digunakan dalam model ini? 🤔🤔
Okee mimin jelasin singkat ya perbedaannya! KNN itu mengelompokkan data berdasarkan jarak kedekatan antara titik. Sehingga scatter data yang berdekatan dianggap dalam kategori yang sama.
Jika terdapat gap/jarak yang jauh, maka akan timbul border atau batas dari kategori data
Support Vector Machine(SVM) singkatnya adalah metode pengelompokan data berdasarkan vektor bantu yang membagi scatter data menjadi beberapa region kategori. Vector membagi data sehingga luasan kategori data optimal dan tidak bias dengan bantuan soft margin guna menangani error.
Sedangkan Random Forest adalah metode penentuan kategori scatter data berdasarkan ciri / features yang dapat ditentukan sendiri dan diseleksi menggunakan sekumpulan decision tree.
Seperti dengan judul thread hari ini, Random Forest lebih unggul jika berurusan dengan data kategoris karena disusun dari beberapa decision tree dan dapat bekerja optimal bahkan pada dimensi variabel yang tinggi.
RF bersifat stabil sehingga dinilai paling akurat untuk berbagai jenis scatter data. Nah, kalau kita bandingin akurasi ketiga mode tadi, bisa diliat yaa kalau random forest punya akurasi yang paling tinggi.
Kembali ke topik! Dalam kasus menentukan LOS, dibutuhkan data jenis penyakit dan gejala penyakitnya guys. Hal ini digunakan untuk menentukan dan memvalidasi gejala, penyakit, dan perkiraan lamanya rawat inap yang diperlukan
Oleh karenanya, dimensi dari features data akan sangat besar guna mencakup berbagai symptoms and illness. Dalam sebuah jurnal, disimulasikan beberapa gejala sebagai berikut:
Variable importance menandakan seberapa berpengaruhnya gejala tersebut terhadap lamanya LOS. Karena kita sedang menghadapi wabah COVID19, maka gejala pernapasan adalah yang paling genting untuk dilakukan perawatan. #️⃣1️⃣
Jenis gejala lain atau bahkan latar belakang kebiasaan / penyakit pasien juga menjadi variabel karena penyakit yang timbul bisa dari lingkungan dan genetik. Bisa juga dicari dari gender dan ras untuk menentukan dari sisi epidemiologi guna memprediksi populasi yang lebih luas
Menggunakan algoritma Random Forest, data-data tersebut dilatih dan dites mengikuti alur flowchart di bawah.
Pada data train dibagi 11 kelas berdasarkan Length of Stay atau lama rawat inap, dengan interval 4 hari antar kelas, dimana kelas 0 tidak perlu rawat inap sampai kelas 10 yaitu 40 hari rawat inap. Tentu penentuan ini dari data yang sudah ada dan rekomendasi dokter
Kemudian, konstruksi decision tree dapat menggunakan Gini index atau Entropy untuk menentukan cabang tree apa yang paling mungkin terjadi berdasarkan probabilitas gejala penyakit di atas :
“Oiya min, terus perbedaan keduanya apa? Atau bisa dipakai dua duanya?🤨”
Penggunaan impurity criterion ini dapat dipilih salah satunya. Perbedaannya terdapat pada percabangannya. Gini menentukan cabang mana yang mungkin terbentuk sedangkan Entropy menentukan adanya percampuran kelas dalam satu node. Entropy juga lebih rumit dalam kalkulasi matematis
Penggunaan Random Forest terbukti mendapat hasil test set yang mendekati training set. Ini berarti RF memiliki keakuratan yang cukup untuk memprediksi LOS pada pasien rumah sakit.
Dengan membentuk matrik korelasi antar variabel, didapat korelasi yang menggambarkan hubungan LOS dengan kedatangan pengunjung rumah sakit, tingkat keparahan penyakit, ketersediaan bangsal, dan lain lain
Output ML ini adalah pengklasifikasian kelas LOS pasien baru berdasarkan gejala dan diagnosis agar dapat diprediksi lama rawat inapnya. Sehingga daftar tunggu dan transfer pasien rumah sakit bisa lebih pasti dan terkendali.
Pengembangan ML semacam ini dapat digunakan oleh jaringan rumah sakit untuk berkolaborasi dalam transfer pasien di masa wabah COVID-19. Bahkan pengaplikasiannya dapat diterapkan pada stok oksigen, ventilator, dan barang medis lainnya agar tidak terjadi kelangkaan
Sehingga, kita sebagai masyarakat dapat membantu ketersediaan rumah sakit dengan berkontribusi di bidang yang kita tekuni, tetap menjaga prosedur kesehatan, dan tetap #dirumahaja
Eitss anywayy, mimin tau kok kalian pasti bosen di rumah sejak 1,5 tahun lalu. Sini deh mimin saranin ikut Non Degree Program Data Science & Business Intelligence Pacmann biar bisa bikin prediksi kaya thread ini~ Cek informasi lengkapnya di bit.ly/PacmannioTwitt… yaa!
Beli followers biar jadi selebgram?!
Awas, bisa diciduk Support Vector Machine loh!
.
.
.
A Thread
Mimin mau tanya nih, siapa disini yang hobi mantengin sosial media. Kalian pernah ga liat story influencer sampe titik-titik? Tapi pas dibuka isinya endorse semua 😔💔 Hmmm, kalian jadi males buka ga?
Sampai sekarang, sudah banyak loh kasus teman teman small business owner yang malah rugi karena endorse di orang yang salah, misalnya kaya yang satu ini nih🤧
Deteksi penyakit pake probabilitas? Gimana tuh caranya?! 😲🤯
Yuk belajar Aturan Bayes biar tau peluangnya!
.
.
A thread
Kalian tau gak kalo sampai saat ini, gaada satu alat tes pun yang punya akurasi 100% untuk mendeteksi COVID-19. Bahkan PCR yang jadi golden standard pun akurasi tertingginya 98%
Artinya, kalo ada 1000 orang dites, ada sekitar 20 orang yang akan mendapat hasil tes yang salah, bisa jadi ada yang terinfeksi tapi terdeteksi negatif (false negative), atau yang gak terinfeksi tapi terdeteksi positif (false positive). Wah terus gimana dong?
Mimin dulu belajar coding html di notepad berasanya udah keren banget gasih?! 😆😅
Dulu inget banget nih, belajarnya pas pelajaran komputer waktu SMP. Sekelas terseok-seok belajarnya, tapi begitu dijalanin dan bisa, pada teriak-teriak saking kesenengan karena keren 😂🤣
Dan tentunya yang paling jago coding di kelas jadi anak kesayangan guru dan selalu disamperin anak-anak lain buat ditanyain 😂
Building data scientist portfolio to land a job
.
.
.
A thread
Menurut kalian, penting ga sih seorang DS punya portfolio?
Pernah ga kalian liat job opening buat entry level yang requirementnya gak masuk akal? Udah mah fresh graduate tapi minimal punya beberapa tahun experience, misalnya?