Untuk edisi #rabuTableau minggu ini, gue mau bahas soal data preparation atau persiapan data. Meski beberapa bagian di thread ini spesifik untuk digunakan untuk Tableau, namun banyak poin yg bermaanfaat untuk analisis data juga kok.
Mari kita belajar ngolah data! 📊
Biar lebih paham, sebelum berkutat ke tools @tableau atau @tableaupublic , gue mau sharing dulu apa itu data preparation.
Lo bisa simak gimana prinsip-prinsip mengolah data supaya bisa digunakan dengan layak nantinya.
Proses data preparation itu termasuk tahapan penting. Tujuannya agar data yg kita punya reliable. Selain itu, data juga bisa dibikin lebih ringkas, biar nantinya kita ga pusing atau repot sendiri saat dikulik.
Biar lebih paham, coba perhatikan gambar di bawah ini:
Gambar nomor 1 adalah proses pengumpulan data.
Umumnya, data yang kita dapatkan itu berantakan. Apalagi kalau datanya dapat dari berbagai sumber.
Kalaupun tidak berantakan, kadang formatnya tidak sesuai dengan apa yang kita harapkan.
Mungkin sebagian punya pengalaman, ketika ngumpulin data, pasti puyeng dengan berantakannya data itu.
Problemnya macem-macem, umumnya adalah:
- datanya gak terstruktur rapi
- gak lengkap alias banyak NA
- gak konsisten
- banyak karakter gak jelas
- dst
Tentunya jika data tidak sesuai harapan atau berantakan, perlu dirapikan. Obviously.
Nah, gak perlu kaget saat kita bekerja sebagai analis atau sebagai data scientist, kebanyakan waktu habis untuk merapikan data itu sendiri.
Proses di preparation ini dinamakan data cleaning.
Apa yang harus di-cleaning ya itu tentu macam-macam. Gue coba kasih beberapa hal yang perlu di thread ini, terutama jika datanya mau dipakai buat bikin #dataviz di Tableau.
Tableau Public sebenarnya bisa menarik data dari berbagai jenis sumber. Salah satunya juga bisa connect ke Google Sheets.
Tapi, untuk panduan di sini contoh yg gue pake adalah kalau kita memilih menggunakan file csv.
Untuk cleaning tools-nya pakai apa? Sebenarnya di Tableau ada tapi harus yg langganan, tools itu namanya Tableau Prep.
Untuk versi yg free kita bisa gunakan tools eksternal seperti R, Python, atau bisa juga pakai Google Sheets.
Gue sendiri mix antara Google Sheets dan R.
Hal pertama yg dilakukan adalah memilih kolom yg diperlukan. Ambil kolom-kolom atau field yg dibutuhkan. Sisanya buang.
Selain itu, kolom-kolomnya dikasih nama dengan format yang jelas dan rapi. Kalau kolomnya masih alay, juga dirapiin lower / upper case-nya.
Pengalaman gue memang kadang data yg diambil memasukkan terlalu banyak informasi yg gak elok diolah buat data analyst.
Nantinya saat sudah dipilih, kita save ke CSV baru dengan kolom yg lebih ringkas.
Setelah kolom dipilih, jangan lupa untuk cek data type di data kita. Memang di Tableau sendiri mereka bisa menerka otomatis tipe data yg kita impor.
Tapi, kita juga perlu punya pegangan, karena kadang Tableau ga 100% akurat, dan nantinya kita bisa set manual di situ.
Jika sudah, jangan di save ke csv dulu. Tugas lo masih panjang lol. Lakukan cek data apakah bersih apa nggak.
Ceklist yg perlu dilakukan dalam data cleaning biasanya gini:
- Cari value yg hilang (NA / null)
- Cek outlier
- Temukan data duplikat
- Benerin format yg ga konsisten
Data hilang
Kita identifikasi lalu lakukan sesuatu ke value yg NA atau null dalam dataset. Ini bisa dilakukan dengan cara menghapus titik data, menggantinya dengan nilai yang sesuai seperti rata-rata atau median, atau mengisi nilai yang hilang menggunakan teknik statistik.
Outlier
Identifikasi outlier di data, lalu lakukan sesuatu. Bisa dengan menghapus outlier atau mentransformasi data. Tangani dengan bijak ya, karena ga setiap outlier harus dihilangkan datanya.
Cek duplikat
Data duplikat kadang ngeselin. Kadang ini terjadi dan ditemukan dalam data yg kita punya. Sebabnya macam-macam. Bisa kesalahan saat input, atau bisa juga terjadi malah kita yg bikin saat data lagi diolah.
Data Inkonsisten
Ini juga ngeselin. Kadang format data itu gak konsisten. Ini harus dibikin seragam agar nanti saat dilakukan plot atau kalkulasi jadi rapi.
Kalau gak konsisten, nanti ada produk 'Microwave' dan 'Mikrowave' seperti chart di kanan bawah ini:
Uraian di atas adalah prinsip dasarnya. Tapi, Tableau juga kasih catatan kira-kira data apa yang perlu kita perhatikan.
Pertama formatnya adalah kolom dan baris. Setiap baris itu representasi satu item. Tiap kolom juga representasi satu atribut data.
Tableau bisa handle data baik long atau wide format. Tapi, agar nantinya saat bikin visualisasi bisa lebih enak, disarankan memakai format long atau tall.
Di tableau ada fitur pivot, tapi kita juga bisa pivot pakai tools eksternal. Contoh di gambar kanan adlah pakai #Rstats.
Kalau mau lebih jelas soal wide atau long format bisa baca di sini:
Tabel atau data dengan long format memang lebih ramah untuk fitur-fitur di Tableau, filter misalnya. Contoh di bawah adalah #dataviz gue yg ada filternya pake data long format.
Kalau sudah, boleh deh file-nya disimpan dalam bentuk CSV. Untuk tahapan berikut bisa cek di thread #rabuTableau sebelumnya soal bikin data viz pertama:
Data ini sendiri diambil tepat tanggal 1 Januari 2023 agar bisa dapetin gambaran variabel selama 2022. Untuk rating penilaian film dari Letterboxd dan IMDB, untuk rilis atau PH dari Wikipedia, dan untuk penjualan tiket dari aplikasi @cinepoint_ .
Tahun 2022 memang luar biasa untuk film Indonesia. Film terlaris di tahun itu juga jadi film Indonesia terlaris sepanjang masa. Sepanjang 2022, KKN di Desa Penari mencatat angka 9,2 juta. Sekarang sih udah tembus 10 juta.
Gue mungkin akan share soal AI dan procedural generated content di video games, pake contoh #NoMansSky .
Tapi, mungkin gue mau kasih apresiasi soal game ini. Asli, nagih banget.
Di sini lo bisa maen game ini dengan berbagai moda permainan.
Game ini bisa seru dimainin di permukaan planet, di bawah laut, atau bahkan di luar angkasa. Bisa dogfight lawan perompak, bisa naik kendaraan kayak ATV atau malah mech, bisa juga miara monster alien sampe bisa ditunggangi.
Kita bahkan bisa beli kapal induk.
Gameplay-nya juga beragam.
Cuma mau fokus bikin bangunan? Bisa
Mode Survival / permadeath? Ada
Lawan alien kayak Dead Space? Ada
Jelajahi bawah laut? Bisa
Jadi perompak, nyelundupin barang ilegal? Ayo
Flexing juga gak jujur karena cenderung tonjolin hal yang itu-itu saja. Orang kan butuh tau aspek lain dari kita.
True you. Dari sesederhana hobi, sampai pendapat kita soal isu2 penting. Isu penting bisa soal relationship itu sendiri, bisa juga soal keluarga dan masyarakat.
Kadang lawan jenis itu juga butuh tahu sesederhana gimana pandangan kita soal kpop, misal dia suka kpop. Karena tentu misal kitanya anti banget ya dia jg ga akan nyaman seterusnya.
Nah, gimana mau tau pandangan2 personal kita kalau kita sendiri nutupin sama flexing mulu.
Di seri #rabuTableau minggu ini, gue mau jelasin satu per satu chart dasar yang ada di @tableau. Juga fungsi dan kegunaan.
Juga bisa dijadiin cheat sheet juga kan. Ini chart basic ya, karena kalau kita kreatif, kita bisa bikin chart lebih banyak lagi.
Like / RT / bookmark ya!
@tableau Meski chart dasar ini yang gue jelasin ada sebagai chart basic di tablau, pada dasarnya bisa juga dibikin di tools #dataviz lainnya. Gue mencoba menjelaskan yg umum saja ya, tapi untuk pengaplikasian tepatnya di mana, tergantung dengan data atau informasi yang mau disampaikan.
Satu lagi 30 under 30 @Forbes fix seorang scammer. Nipunya sampe 175 juta dolar gila!
Charlie Javice adalah CEO Fintech bernama Frank yg disuntik dana dari JP Morgan, yg ternyata bisnisnya dijalankan di atas sebuah kebohongan.
@Forbes Nama fintech-nya Frank, berdiri tahun 2016. Tujuannya ngebantu anak kuliahan mengatur keuangan mereka. Charlie Javice sang founder ingin bikin ini jadi platform paling berguna untuk anak kuliahan terutama agar mereka nggak pusing urusan duit.
@Forbes Charlie Javice masuk daftar Forbes 30 Under 30 list di tahun 2019 di kategori keuangan. Javice pernah bilang kalau kesulitannya adalah skala.
Skala di dunia bisnis / startup merujuk pada kemampuan meningkatkan ukuran dan tingkat aktivitas operasional secara efisien dan efektif.