Jadi contoh kasusnya di sini adalah, aku pengen bikin sistem rekomendasi tentang traffic/transportasi. Tujuannya adalah gimana caranya kasih tahu orang kalo kantornya di A, rumahnya di B, kapan enaknya berangkat ngantor.
Pertama yang harus dilakukan banget adalah.... rumusin masalah sih wkwkw kebetulan aku udah tahu aku mau ngapain, yang adalah twit sebelumnya.
Tapi di banyak kasus, di banyak lembaga, blm punya tujuan mau ngapain dan itu bakalan lebih susah.
Jadi rumusin masalah adalah step 0
Studi kasus ini berdasar proyek kecil-kecilan yang aku pernah bikin di sini
Jadi beberapa istilah akan aku ambil dari proyek ini juga
1) DATA ENGINEER
Di banyak kasus, data blm ada, sehingga penting banget untuk mengumpulkan data. Di banyak kasus juga, datanya udah ada, tinggal dikumpulin jadi satu, ditata, di-manage, disimpan dengan baik dan benar. Ini tugas data engineer.
Di kasus khusus aku ini, data engineer tugasnya ngumpulin data traffic, karena datanya blm ada. Kebetulan data traffic ini juga adanya real-time, jadi data engineer harus bisa mengautomatisasi pengambilan data biar akhirnya bisa cukup punya data untuk dianalisis.
Skillset untuk data engineer biasanya database system (kalo modern bisa Amazon S3, hadoop, etc), ETL, SQL, NoSQL, scripting
2) DATA ANALYST
Nah kalo udah ada datanya nih, data analyst bertugas mengeksplorasi, memilih dan merangkum data tsb. Penyajiannya biasanya berupa dashboard.
Di kasus khusus aku ini misalnya, data analyst akan berusaha melihat datanya seperti apa, dipetakan misalnya, dirata-rata, dkk
Data analyst ini sekarang paling lentur skupnya. Kalo data analyst ini sangat hands-on dengan pengambil kebijakan dan pengembangan bisnis, namanya bisa jadi business analyst, yang harus mikirin requirement business juga.
Skill yang diperlukan data analyst antara lain Excel, SQL, dashboard tools (PowerBI, Tableau, dkk), statistik deskriptif minimal.
Terus biasanya data analyst ini sering ketemu klien, stakeholder juga, jadi kemampuan komunikasi jadi skill yang penting juga
3) DATA SCIENTIST
Data scientist sering mengerjakan hal-hal yang dikerjakan data analyst juga, makanya sering ketuker juga. Tapi, data scientist kemudian mengambil satu langkah lebih dalam, yaitu dengan menggali hal-hal yang tidak obvious dari data dg menggunakan metode stats.
Di kasus spesifik traffic tadi, satu langkah lebih dalam yg aku lakukan adalah dengan menggunakan metode clustering untuk mencari tahu kalo tinggal di sebuah daerah X enaknya berangkat ngantor pagi jam berapa, pulang jam berapa
Data Scientist vs Data Analyst
Mengutip dari link berikut, perbedaan keduanya adalah
“A data scientist job roles involves estimating the unknown whilst a data analyst job roles involves looking at the known from new perspectives.”
Skill yang dibutuhkan data saintis biasanya SQL, scripting (R, python), statistik, memahami metode machine learning, dan tidak jarang, storytelling karena bisa jadi penemuannya makjang kayak drama korea jadi harus bisa menjelaskan kenapa bisa mendapatkan kesimpulan tsb
4) MACHINE LEARNING ENGINEER
Machine learning engineer bertugas mengautomatisasi hal-hal yang dilakukan data scientist agar bisa diduplikasi dan scalable
Contoh nih, di kasus aku di atas, aku cuma asumsikan semua orang kerja di Senayan, kan padahal engga. Nah machine learning engineer ini nanti tugasnya mengemas proses analisisku yang sekarang cuma satu tempat ini biar bisa jadi buat banyak tempat...
...sedemikian hingga kalo aku pengen bikin web/aplikasi di mana inputnya tinggal di A kerja di B, udah otomatis rekomendasi berangkat kerja dan pulang kerjanya jam berapa. Aku nggak harus manual bikin satu-satu.
ML engineer ini masih jarang padahal banyak dibutuhkan, apalagi di perusahaan besar.
Skillsetnya antara lain software engineering, pemahaman terhadap statistik, dan metode machine learning
Selain kerjaan2 di atas, ada banyak kerjaan lain terkait dengan data, misalnya decision scientist/statistician, tugasnya ngerjain banyak eksperimen A/B test untuk membuat keputusan. Kalo ga ada decision scientistnya, biasanya dilakukan data scientist juga
Iya, jangan kaget juga kalo ada role "data scientist" tapi ngerjain semuanya, karena semua sesuai skup proyeknya seperti apa dan level maturitas perusahannya
Tapi sebagai orang yang been there done that ini, kalo merasa *dimanfaatkan* karena jobdesnya kebanyakan dan skupnya udah kegedean, saran aku segera komunikasikan dengan bos bahwa hal tsb harusnya dikerjain oleh role lain misalnya. Kalo ga bisa overworked dan itu ga enak :(
Ada yang sebut ML engineer sebagai AI engineer juga
Ada grafik menarik, cuman sepengalamanku ML engineer ga cuma ngerjain AI & deep learning aja, simple ML, automasi labeling, bisa juga jadi kerjaan ML engineer kalo butuh jadi scalable.
Mungkin unpopular, tapi menurutku kalo kamu punya privilese ya pakailah sebaik2nya, jgn malu mengakui kalo punya, beri contoh gimana makenya, biar orang di luaran ga ketipu dengan mantra "kErJa KeRas pAsTi SukSEs" dan bisa refleksi privilesenya masing2
Use but don't abuse ;)
Privilese tuh ga melulu harta tahta loh. Orang tua yang mendukung kamu bisa jadi apa aja misalnya, tuh privilese. Semua yg bisa disyukuri dan ternyata banyak orang ga punya bisa jadi privilese kita.
Dan ga bisa dipungkiri, privilese adalah variabel kesuksesan :(
Ibarat lomba lari, privilese membuat kita entah startnya duluan atau punya sepatu nitro bisa ngebut.
Ngasih tau orang yg pake sepatu biasa aja "ah aku latihan doang kok kayak kamu" bisa misleading :(
Oke, izinkan saya mendongeng. Jadi setahun lalu aku cari kerjaan baru. Caraku biasa banget, sebar CV, lamar kerja ke 100an company, tunggu ada yang telpon/respon
Sebagai latar belakang, buat set ekspektasi, aku kuliah S2 di mamarika. Buat yg kurang familiar, visa F-1 yg biasa dipake orang luar yg kuliah di amriki tuh *nyambung* sama visa kerja setahun (3 th untuk STEM), jadi emang bisa kerja habis kuliah.
Kayaknya aku sering share teknis, hardskill dkk utk data saintis tapi jarang bahas sisi lain yg ga kalah pentingnya: soft skill
Beberapa soft skill yg menurut aku penting dimiliki data saintis:
1. Kolaborasi 2. Bercerita 3. Kritis thd diri sendiri 4. Berpikir terbuka
1. Kolaborasi
Aku taruh no 1 karena paling sering dipake. Di dunia nyata, data saintis harus kerja sama banyak orang: dapetin KPI dari PM/stakeholder, dapet konteks dari domain expert, data dari data engineer dkk jadi harus pinter kerja bareng tim
Alias storytelling. Tiap ada yg tanya portofolio DS bagus kek apa, aku selalu bilang buatlah portofolio yg bercerita: ada problemnya, kenapa metode abc, apa hasilnya.
Dengan demikian kita bisa meyakinkan orang lain untuk membuat keputusan berdasar analisis kita