Beli followers biar jadi selebgram?!
Awas, bisa diciduk Support Vector Machine loh!
.
.
.
A Thread
Mimin mau tanya nih, siapa disini yang hobi mantengin sosial media. Kalian pernah ga liat story influencer sampe titik-titik? Tapi pas dibuka isinya endorse semua 😔💔 Hmmm, kalian jadi males buka ga?
Sampai sekarang, sudah banyak loh kasus teman teman small business owner yang malah rugi karena endorse di orang yang salah, misalnya kaya yang satu ini nih🤧
Makanya guys, kalian harus hati hati kalau mau endorse karena bisa aja jadi boomerang buat bisnis kalian. Misal nih ga ada yang beli atau bahkan engagement akun kalian gitu gitu aja:((
Mimin paham kok endorse bisa jadi strategi marketing yang menguntungkan, asal bisa pilih pihak yang tepat buat diajak endorse, apalagi kalau dia punya engagement yang oke.
Eitss, tapi perlu diingat ya kalau Engagement ≠ Jumlah Followers. Yang berbahaya adalah saat ketika influencer yang dipilih ternyata pake “fake followers” sebagai cara instan buat dapetin endorse😈
Target mereka adalah bisnis owner yang kurang jeli dalam menganalisis, makanya kita bisa nih deteksi nih followers influencer yang kita targetin itu fake atau real sih.
Salah satu cara yang bisa digunakan adalah dengan menggunakan Classification Algorithm.
“Apatuh Classification Algorithm min?”🙀
Classification algorithm itu algoritma ML yang menyortir suatu input berdasarkan variabel yang ditentukan. Pengklasifikasian ini bisa dilakukan secara manual (supervised) atau otomatis (unsupervised) oleh komputer.
Sebenernya nih, Classification Algorithm ini bisa pakai berbagai metode kaya Naive Bayes, KNN, SVM, dan masih banyak lagi.
Tapii, kalau dari penelitian ini, Support Vector Machine (SVM) adalah metode terbaik karena mampu mengkategorikan meski variabel berbentuk multidimensi dengan batasan yang sulit.
Jadi dalam kasus deteksi fake account ini, kita bakalan pakai SVM. Sekarang, yuk kenalan lebih lanjut sama SVM ini!
Dalam metode SVM, ada batasan utama yang disebut margin dan batasan bantu atau support vector. Dalam bidang 2 dimensi batasan tersebut adalah garis, tapi makin tinggi variabel dimensi maka bentuknya akan semakin kompleks lho! Mereka biasa disebut Hyperplane.
Bidang batas ini diklasifikasikan dengan optimal hyperplane, dimana batasnya harus berada pada margin maksimal dari setiap kategori. Sayangnya metode ini memiliki trade-off bias / variance. Contohnya ada 1 titik merah di dalam margin hijau yang bisa berakibat pada misinterpretasi
Makanya dibutuhkan bidang bantu (soft margin) atau Support Vector untuk mentoleransi cross validation tersebut sehingga meskipun terdapat 1 titik merah pada zona hijau di data training, zona hijau tersebut ga dianggap merah secara keseluruhan oleh komputer.
Contoh, jika terdapat suatu titik hitam belum terkategori masuk ke program, maka SVM akan mendeteksi cirinya berdasarkan letaknya dan menentukan kategori titik tersebut. Outliers titik merah dalam soft margin zona hijau dapat diabaikan jadi titik tersebut termasuk zona hijau
Contoh tadi termasuk klasifikasi dimensi rendah guys, yaa biar bisa paham konsep SVM ini. Tapi dimensi rendah itu kurang berguna karena untuk pengklasifikasian secara akurat dibutuhkan banyak feature.
P.S. biasanya digunakan puluhan feature loh😉
Oleh karena itu, hampir mustahil untuk memvisualisasikan secara sempurna klasifikasi dimensi tinggi. Paling gak hanya sampai dimensi 2 atau 3 yang dapat divisualisasikan secara sempurna. Dalam kasus analisis fake followers, dibutuhkan 8 dimensi variabel penentu 😲
Untuk nyari tau gimana sih cara kerja SVM ini untuk deteksi akun fake / real, kita coba liat contoh salah satu dari ribuan akun yang diuji dalam penelitian ini. Komputer bisa tau data akunnya karena akun dibuat publik (alias ga di private) jadi bisa diakses siapapun.
Kalo menurut kalian, akun marco duran di atas real atau fake, dan kenapa?
Kalau diliat sekilas dari followers sama status sih harusnya ga fake yaa. Dua duanya sama sama banyak loh jumlahnya.
Eitsss tapi gak segampang itu guys. Dari sisi status dan tweet emang terbukti “genuine” atau asli, tetapi komputer juga mempertimbangkan 6 aspek yang lain loh. Oleh karenanya analisis ini cukup rumit jika dilakukan manual.
Nihh, berdasarkan analisis komputer, ternyata “teman” si Marco hanya ada 14. Sangat jauh jika dibanding dengan followersnya pada tabel distribusi jumlah teman. Selain itu, gambar dari profil picturenya Marco terdapat link random dari internet dimana akun asli lainnya ga ada
Jadi bisa disimpulkan kalau akunnya Marco ini fake. Nah, buat sampai ke tahap ini, kita harus melewati proses iterasi dan training data oleh komputer sampai ribuan kali, guys. Secara umum dapat dijelaskan oleh flowchart di bawah ini ni:
Itulah yang membuat sistem Machine Learning ini dapat secara akurat menentukan mana akun yang palsu dan mana yang asli. Terus darimana kita tau prediksi akun fake / real ini udah tepat atau belum?
Buat menjawab hal tersebut, kita cek berapa sih performa SVM ini. Ketika diteliti lebih lanjut, ternyata performanya bernilai 93% atau sangat baik.
Hasil pengujian algoritma menggunakan K-Fold Cross Validation juga menunjukan performa recall information, precision, dan F1-score yang baik. Bahkan disebut akurasi akan meningkat jika variabel penentu semakin banyak pula.
Nantinya algoritma ini dapat dipakai suatu company atau bahkan small business owner untuk mendapatkan report terkait akun influencer yang akan di endorse. Report tersebut menjelaskan persebaran followers asli dan fake sehingga bisa deh dengan tepat menentukan influencer tujuan
Oh iya, ini juga berlaku loh buat business owner yang beli fake followers.
“Loh bukannya kalo buat business owner, followers banyak itu bikin customer lebih percaya ya?”
Eits, ga gitu konsepnya guys. Kalau diabaikan, efek paling fatalnya adalah trust issue dari customer kamu. Mereka bakal berpaling ke kompetitor karena kamu keciduk pake fake followers.
Followers memang salah satu faktor penentu dari sebuah bisnis endorse. Akan tetapi banyak faktor lain yang justru harus dimiliki oleh para influencer dan pemilik bisnis ketahui yaitu:
(1) Service
Kualitas service dari bisnis yang kamu lakukan haruslah sesuai dengan target customer kamu. Perlakuan seperti fast response, ramah, dan totalitas menunjukan profesionalitas loh contohnya ininii🤭😁
(2) Testimoni
Adanya feedback positif yang diberi customer dapat mempengaruhi bisnis kamu. Feedback dari akun asli seperti menunjukan foto, komentar, dan lainnya akan membuat calon customer lain memiliki trust
(3) Strategi Marketing
Teknik marketing kamu tentu harus menyesuaikan trend agar bisa mendapat engagement yang luas dan meningkatkan daya beli di produk kamu. Tapi ingat yaa, marketing juga harus bisa menyampaikan value dari produk kamu😉👍
(4) Sering “Ngonten”
Entah itu bikin story, atau jawabin komentar, atau bahkan buat giveaway kecil kecilan akan membuat akun bisnis kamu terlihat aktif dan menarik. Akibatnya customer akan merasa dekat dan produk kamu akan jadi pilihan mereka
Nahh, gimana guys, sekarang kamu jadi paham kan serba serbi fake followers dilihat dari sisi Data Science bahkan sampai kacamata bisnis. Oh iya, algoritma classification lainnya bakal dibahas di Non-Degree program kami lohh! 👌👌
Makanya yuk buruan kepoin kelas kami dan cus daftar! Program Non-Degree kita sekarang lebih terjangkau, faster track, bisa cicilan dengan bunga 0%, dan masih banyak lagi!😲 Liat-liat dulu yuk di sini: bit.ly/PacmannioTwitt…!
Duhh rumah sakit pada penuh!🏥🤧
Prediksi RS yang tersedia pakai Random Forest yuk!
.
.
.
A Thread
Gak kerasa ya PPKM sudah memasuki hari ke 10, atau malah kerasa banget? Yang penting tetap stay at home ya.
Seperti berita berita yang diliput media massa, ternyata kasus maraknya covid juga sampai ke sosial media. Banyak saudara kita yang terdampak dan sulit mendapatkan penanganan medis. Bahkan sudah banyak rumah sakit yang kewalahan dan overcapacity cnnindonesia.com/nasional/20210…
Deteksi penyakit pake probabilitas? Gimana tuh caranya?! 😲🤯
Yuk belajar Aturan Bayes biar tau peluangnya!
.
.
A thread
Kalian tau gak kalo sampai saat ini, gaada satu alat tes pun yang punya akurasi 100% untuk mendeteksi COVID-19. Bahkan PCR yang jadi golden standard pun akurasi tertingginya 98%
Artinya, kalo ada 1000 orang dites, ada sekitar 20 orang yang akan mendapat hasil tes yang salah, bisa jadi ada yang terinfeksi tapi terdeteksi negatif (false negative), atau yang gak terinfeksi tapi terdeteksi positif (false positive). Wah terus gimana dong?
Mimin dulu belajar coding html di notepad berasanya udah keren banget gasih?! 😆😅
Dulu inget banget nih, belajarnya pas pelajaran komputer waktu SMP. Sekelas terseok-seok belajarnya, tapi begitu dijalanin dan bisa, pada teriak-teriak saking kesenengan karena keren 😂🤣
Dan tentunya yang paling jago coding di kelas jadi anak kesayangan guru dan selalu disamperin anak-anak lain buat ditanyain 😂
Building data scientist portfolio to land a job
.
.
.
A thread
Menurut kalian, penting ga sih seorang DS punya portfolio?
Pernah ga kalian liat job opening buat entry level yang requirementnya gak masuk akal? Udah mah fresh graduate tapi minimal punya beberapa tahun experience, misalnya?