Cegat Pelanggan Jangan Sampai Kabur✋🏃
Pakai Logistic Regression
.
.
.
A thread🧵
Tebakk, bagi sebuah bisnis, lebih mahal yang manaaa?
Eitss jangan terkecoh, mencari konsumen baru itu jauuhhh lebih mahal dibandingkan dengan mempertahankan konsumen. Ga heran, berbagai perusahaan concern banget sama yang namanya “churn”.
Churn adalah fenomena berhentinya konsumen menggunakan layanan yang kita tawarkan. Biasanya, churn ini terjadi karena perusahaan ga bisa memprediksi siapa dan kapan konsumen akan churn.
Maka dari itu, kalau perusahaan bisa memprediksi konsumen churn, maka ia akan sangattt menghemat biaya marketing. Nah, untuk memprediksi hal ini, kita bisa menggunakan logistic regression.
Mari kita recall singkat apa itu logistic regression. Metode ini merupakan salah satu algoritma machine learning yang digunakan untuk menghasilkan sebuah persamaan dimana dependen variabelnya bersifat kategorik.
Dalam kasus ini, kita akan menggunakan binary logistic regression, dimana si variabel dependennya ini hanya akan masuk ke kelas 0 (tidak churn) dan kelas 1 (churn).
Bila hasil persamaan menunjukkan nilai dependen variabel lebih besar dari 0.5, maka ia akan masuk ke kelas 0. Kalau tidak memenuhi syarat itu, berarti akan masuk ke kelas 1.
Dulu, mimin udah pernah bahas lebih dalam mengenai logistic regression di thread ini. Silahkan dibaca yaa untuk pemahaman lebih dalam tentang metode yang satu inii
Thread ini akan membahas bagaimana logistic regression dapat memprediksi churn perusahaan telekomunikasi di US. Contoh ini dipilih soalnya perusahaan telekomunikasi itu memiliki churn rate yang tinggi.
Kalau di US, kompetisi di industri telekomunikasi itu ketat banget karna perubahan teknologi, marketing, dll. Konsumen pun juga punya banyak alternatif ketika memilih provider kartu hp mana yang ingin ia pakai.
Makanya contoh ini diambil karena memang mendeteksi churn rate itu menjadi salah satu tugas penting perusahaan telekomunikasi.
Nah, langkah pertama yang akan kita lakukan adalah menyiapkan data yang akan dipakai untuk analisis. Kita akan menggunakan data perusahaan telekomunikasi bernama Orange.
Data didapatkan dari berbagai sumber dan disatukan ke dalam format yang sama. Kemudian, data melewati tahap cleaning untuk menghilangkan ambiguitas, error, dan data yang tidak mengandung informasi penting.
Tahap cleaning data ini penting banget untuk dilakukan karena dalam database perusahaan telekomunikasi, kita akan menemukan banyak null values yang harus diremove dari database.
Selain itu, ga semua data juga akan digunakan, misalnya data domisili. Intinya yang ga berguna untuk analisis kita akan dibuang, mengingat semakin banyak data yang kita simpan, size database akan semakin besar dan ini akan memperlambat kecepatan model.
Akhirnya, kita mendapatkan dataset yang berisi 20 informasi (variable) mengenai perilaku 3333 konsumen pada periode tertentu, dimana 483 diantaranya merupakan ‘churners’.
Kalau sudah dapat data yang siap dianalisis, selanjutnya kita akan bagi data tersebut ke dalam training set dan test set. Kemudian, kita analisis deh menggunakan WEKA.
WEKA ini merupakan software yang digunakan untuk menjalankan algoritma machine learning dan data mining TANPA harus coding.
Jadi cocok untuk kamu yang baru belajar machine learning. Dengan WEKA, kamu bisa fokus memahami alur kerja machine learning secara mendalam dan ga ke distract dengan ngoding.
Dulu mimin pernah bikin thread sendiri tentang WEKA, silahkan di cek disini ya
Nah, sekarang yang menjadi pertanyaannya, apa yang bisa membuat kita tahu bahwa prediksi menggunakan logistic regression ini sudah oke dan bisa dipercaya?
Untuk menjawab hal ini, kita akan menggunakan performance measures berupa confusion matrix. Dulu, mimin udah pernah bahas secara khusus teori mengenai confusion matrix di
Nah, setelah menentukan performance measures untuk model, ternyata ditemukan kalau dari 3333 sample, logistic regression berhasil mengklasifikasikan secara benar bahwa 2841 konsumen tidak akan melakukan churn dan salah mengklasifikasikan 57 konsumen melakukan churn.
Akurasi metode ini pun mencapai 85.2385% loh! Dan berikut adalah hasil performance measures nya guys (liat yang LR alias logistic regression) yaa!
Jadi bisa dibilang kalau logistic regression ini cukup ampuh untuk memprediksi konsumen mana aja yang akan churn sehingga perusahaan dapat melakukan tindakan pencegahan, misalnya dengan memberi promo / diskon / voucher.
Terbukti yaa ternyata penerapan machine learning pun bisa untuk bidang marketingg. Nah, sekian dulu thread hari inii.
Untuk memperdalam logistic regression maupun algoritma lainnya, kalian bisa baca thread2 mimin di moments atau ikut Non Degree Program Data Scientist / Business Intelligence Pacmann di bit.ly/WAsalesTw
Googling Cepat dan Tepat🔍🧑💻
Simak tipsnya yuk!
.
.
.
A thread🧵
Ketika menyelesaikan suatu project, mana mungkin tidak Googling🤷♀️
Nah, biasanya, semakin spesifik topik yang kita bahas, makin susah nyari referensinya di Google. Jadi banyak waktu yang kebuang dehh.
Makanya, kali ini mimin bikin mini thread tentang tips Googling. Lumayan, biar bisa menghemat waktu searching apa yang dibutuhkan. Mari kita mulai threadnyaa~
Data Analyst 101📈🔍
Job desc, Skill, and Benefits
.
.
.
A thread🧵
Mimin yakin kalian udah pernah denger pekerjaan yang satu ini. Tapi, apakah kalian udah tau apa yang dilakukan oleh Data Analyst dan membedakannya dari pekerjaan lainnya di industri data?
Jujuly, mimin juga baru paham jobdesc Data Analyst pas bikin thread ini juga sih heehhehe. Yasuda mari kita kupas tuntas jobdesc, gaji, demand di Indo, sampai skill yang dibutuhkan untuk jadi Data Analyst~
Get to Know Data Engineering Role👨💻👩💻
Extract, Transform, and Load
.
.
.
A thread🧵
Kita udah sering banget bahas peran Data Scientist maupun Business Intelligence. Tapi jangan salah, masih ada loh pekerjaan lain di industri data yang ga kalah pentingnya, yaitu ✨Data Engineer✨!
Udah pada familiar belum dengan role yang satu ini?
Di thread thread sebelumnya, mimin selalu menyebutkan kalau mencantumkan project yang pernah dikerjakan di CV itu penting agar recruiter tau kalau kalian ga cuma sekedar paham teori aja.
Tapii, selain project, ada unsur yang ga kalah penting loh untuk dicantumkan di CV, yaitu internship! Dengan adanya pengalaman internship alias magang, recruiter juga lebih yakin kalau kalian pernah mengolah real data di industri.
Data kamu ada multikolinearitas?🥴😱
Jangan panik, pakai ridge regression aja!
.
.
.
A Thread
Halo guys! Masih inget bahasan multikolinearitas kita kemarin? Mimin udah janji nih mau bahas cara mengatasi multikolinearitas! Siapa yang tahu kenapa perlu mengatasi multikolinearitas?
Mimin ulas sedikit, ya. Jadi, ketika mau menggunakan regresi linear tetapi ternyata terdapat korelasi yang tinggi antar variabel independennya, itu artinya ada multikolinearitas.