Untuk edisi #rabuTableau minggu ini, gue mau bahas soal data preparation atau persiapan data. Meski beberapa bagian di thread ini spesifik untuk digunakan untuk Tableau, namun banyak poin yg bermaanfaat untuk analisis data juga kok.

Mari kita belajar ngolah data! 📊
Biar lebih paham, sebelum berkutat ke tools @tableau atau @tableaupublic , gue mau sharing dulu apa itu data preparation.

Lo bisa simak gimana prinsip-prinsip mengolah data supaya bisa digunakan dengan layak nantinya.
Proses data preparation itu termasuk tahapan penting. Tujuannya agar data yg kita punya reliable. Selain itu, data juga bisa dibikin lebih ringkas, biar nantinya kita ga pusing atau repot sendiri saat dikulik.

Biar lebih paham, coba perhatikan gambar di bawah ini:
Gambar nomor 1 adalah proses pengumpulan data.

Umumnya, data yang kita dapatkan itu berantakan. Apalagi kalau datanya dapat dari berbagai sumber.

Kalaupun tidak berantakan, kadang formatnya tidak sesuai dengan apa yang kita harapkan.
Mungkin sebagian punya pengalaman, ketika ngumpulin data, pasti puyeng dengan berantakannya data itu.

Problemnya macem-macem, umumnya adalah:

- datanya gak terstruktur rapi
- gak lengkap alias banyak NA
- gak konsisten
- banyak karakter gak jelas
- dst
Tentunya jika data tidak sesuai harapan atau berantakan, perlu dirapikan. Obviously.

Nah, gak perlu kaget saat kita bekerja sebagai analis atau sebagai data scientist, kebanyakan waktu habis untuk merapikan data itu sendiri.

Proses di preparation ini dinamakan data cleaning.
Apa yang harus di-cleaning ya itu tentu macam-macam. Gue coba kasih beberapa hal yang perlu di thread ini, terutama jika datanya mau dipakai buat bikin #dataviz di Tableau.
Tableau Public sebenarnya bisa menarik data dari berbagai jenis sumber. Salah satunya juga bisa connect ke Google Sheets.

Tapi, untuk panduan di sini contoh yg gue pake adalah kalau kita memilih menggunakan file csv.

Buat yg ga tau CSV: howtogeek.com/348960/what-is…
Untuk cleaning tools-nya pakai apa? Sebenarnya di Tableau ada tapi harus yg langganan, tools itu namanya Tableau Prep.

Untuk versi yg free kita bisa gunakan tools eksternal seperti R, Python, atau bisa juga pakai Google Sheets.

Gue sendiri mix antara Google Sheets dan R.
Hal pertama yg dilakukan adalah memilih kolom yg diperlukan. Ambil kolom-kolom atau field yg dibutuhkan. Sisanya buang.

Selain itu, kolom-kolomnya dikasih nama dengan format yang jelas dan rapi. Kalau kolomnya masih alay, juga dirapiin lower / upper case-nya.
Pengalaman gue memang kadang data yg diambil memasukkan terlalu banyak informasi yg gak elok diolah buat data analyst.

Nantinya saat sudah dipilih, kita save ke CSV baru dengan kolom yg lebih ringkas.
Setelah kolom dipilih, jangan lupa untuk cek data type di data kita. Memang di Tableau sendiri mereka bisa menerka otomatis tipe data yg kita impor.

Tapi, kita juga perlu punya pegangan, karena kadang Tableau ga 100% akurat, dan nantinya kita bisa set manual di situ.
Jika sudah, jangan di save ke csv dulu. Tugas lo masih panjang lol. Lakukan cek data apakah bersih apa nggak.

Ceklist yg perlu dilakukan dalam data cleaning biasanya gini:

- Cari value yg hilang (NA / null)
- Cek outlier
- Temukan data duplikat
- Benerin format yg ga konsisten
Data hilang

Kita identifikasi lalu lakukan sesuatu ke value yg NA atau null dalam dataset. Ini bisa dilakukan dengan cara menghapus titik data, menggantinya dengan nilai yang sesuai seperti rata-rata atau median, atau mengisi nilai yang hilang menggunakan teknik statistik.
Outlier

Identifikasi outlier di data, lalu lakukan sesuatu. Bisa dengan menghapus outlier atau mentransformasi data. Tangani dengan bijak ya, karena ga setiap outlier harus dihilangkan datanya.
Cek duplikat

Data duplikat kadang ngeselin. Kadang ini terjadi dan ditemukan dalam data yg kita punya. Sebabnya macam-macam. Bisa kesalahan saat input, atau bisa juga terjadi malah kita yg bikin saat data lagi diolah.
Data Inkonsisten

Ini juga ngeselin. Kadang format data itu gak konsisten. Ini harus dibikin seragam agar nanti saat dilakukan plot atau kalkulasi jadi rapi.

Kalau gak konsisten, nanti ada produk 'Microwave' dan 'Mikrowave' seperti chart di kanan bawah ini:
Uraian di atas adalah prinsip dasarnya. Tapi, Tableau juga kasih catatan kira-kira data apa yang perlu kita perhatikan.

Pertama formatnya adalah kolom dan baris. Setiap baris itu representasi satu item. Tiap kolom juga representasi satu atribut data.
Tableau bisa handle data baik long atau wide format. Tapi, agar nantinya saat bikin visualisasi bisa lebih enak, disarankan memakai format long atau tall.

Di tableau ada fitur pivot, tapi kita juga bisa pivot pakai tools eksternal. Contoh di gambar kanan adlah pakai #Rstats.
Kalau mau lebih jelas soal wide atau long format bisa baca di sini:

towardsdatascience.com/long-and-wide-…
Tabel atau data dengan long format memang lebih ramah untuk fitur-fitur di Tableau, filter misalnya. Contoh di bawah adalah #dataviz gue yg ada filternya pake data long format.
Kalau sudah, boleh deh file-nya disimpan dalam bentuk CSV. Untuk tahapan berikut bisa cek di thread #rabuTableau sebelumnya soal bikin data viz pertama:

Setelah data di-import, kita bisa cek apakah Tableau sudah benar mengintrepretasi jenis data yang kita punya. Kalau belum bisa diganti secara manual.

Gambar di bawah menjelaskan icon2 tipe data:
Kalau dalam prosesnya ternyata datanya masih belum sesuai harapan, sebenarnya dari Tableau bisa walau ga gitu intuitif ya.

Tapi, misal ga mau keluar masuk Tableau, beberapa fitur ada seperti ganti nama kolom / field, split data, bikin kolom baru lewat kalkulasi.
Nah, silahkan ya persiapin datanya sebelum dibikin #dataviz.

Kalau uda rapi, pas disetup juga lebih enak.

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Mikael Dewabrata 📊

Mikael Dewabrata 📊 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @MikaelDewabrata

Feb 21
Analisis Film Indonesia rilis di bioskop di 2022 sudah bisa dibaca di thread ini.

Simak beberapa poin menarik berdasarkan data dengan variabel rating IMDB, Letterboxd, penjualan tiket, dst.

Simak ya 🎬!

Bisa juga dibaca di medium: medium.com/data-science-i…
Data ini sendiri diambil tepat tanggal 1 Januari 2023 agar bisa dapetin gambaran variabel selama 2022. Untuk rating penilaian film dari Letterboxd dan IMDB, untuk rilis atau PH dari Wikipedia, dan untuk penjualan tiket dari aplikasi @cinepoint_ .
Tahun 2022 memang luar biasa untuk film Indonesia. Film terlaris di tahun itu juga jadi film Indonesia terlaris sepanjang masa. Sepanjang 2022, KKN di Desa Penari mencatat angka 9,2 juta. Sekarang sih udah tembus 10 juta.

Di analisis ini kita bisa melihat selain tiket.
Read 29 tweets
Feb 20
Gue mungkin akan share soal AI dan procedural generated content di video games, pake contoh #NoMansSky .

Tapi, mungkin gue mau kasih apresiasi soal game ini. Asli, nagih banget.

Di sini lo bisa maen game ini dengan berbagai moda permainan. ImageImage
Game ini bisa seru dimainin di permukaan planet, di bawah laut, atau bahkan di luar angkasa. Bisa dogfight lawan perompak, bisa naik kendaraan kayak ATV atau malah mech, bisa juga miara monster alien sampe bisa ditunggangi.

Kita bahkan bisa beli kapal induk. ImageImageImage
Gameplay-nya juga beragam.

Cuma mau fokus bikin bangunan? Bisa
Mode Survival / permadeath? Ada
Lawan alien kayak Dead Space? Ada
Jelajahi bawah laut? Bisa
Jadi perompak, nyelundupin barang ilegal? Ayo ImageImageImage
Read 7 tweets
Feb 20
Salah satu kebiasaan yang ternyata ga disukain kebanyakan cewek itu flexing. Tapi, emang ini annoying sih, orang kan mau kita lebih terbuka.

Flexing itu cenderung bikin orang lain mempertanyakan apakah flexing-nya beneran atau berlebihan.
Flexing juga gak jujur karena cenderung tonjolin hal yang itu-itu saja. Orang kan butuh tau aspek lain dari kita.

True you. Dari sesederhana hobi, sampai pendapat kita soal isu2 penting. Isu penting bisa soal relationship itu sendiri, bisa juga soal keluarga dan masyarakat.
Kadang lawan jenis itu juga butuh tahu sesederhana gimana pandangan kita soal kpop, misal dia suka kpop. Karena tentu misal kitanya anti banget ya dia jg ga akan nyaman seterusnya.

Nah, gimana mau tau pandangan2 personal kita kalau kita sendiri nutupin sama flexing mulu.
Read 4 tweets
Jan 25
Di seri #rabuTableau minggu ini, gue mau jelasin satu per satu chart dasar yang ada di @tableau. Juga fungsi dan kegunaan.

Juga bisa dijadiin cheat sheet juga kan. Ini chart basic ya, karena kalau kita kreatif, kita bisa bikin chart lebih banyak lagi.

Like / RT / bookmark ya!
@tableau Meski chart dasar ini yang gue jelasin ada sebagai chart basic di tablau, pada dasarnya bisa juga dibikin di tools #dataviz lainnya. Gue mencoba menjelaskan yg umum saja ya, tapi untuk pengaplikasian tepatnya di mana, tergantung dengan data atau informasi yang mau disampaikan.
@tableau 1. Text Table

Paling sederhana, seperti tabel pada umumnya yg bisa dibikin di excel atau spreadsheet.

Text table bisa terdiri dari beberapa kolom dan baris, tapi dalam #dataviz atau dashboard baiknya dipakai jika kolom tidak terlalu banyak.
Read 20 tweets
Jan 14
Satu lagi 30 under 30 @Forbes fix seorang scammer. Nipunya sampe 175 juta dolar gila!

Charlie Javice adalah CEO Fintech bernama Frank yg disuntik dana dari JP Morgan, yg ternyata bisnisnya dijalankan di atas sebuah kebohongan.
@Forbes Nama fintech-nya Frank, berdiri tahun 2016. Tujuannya ngebantu anak kuliahan mengatur keuangan mereka. Charlie Javice sang founder ingin bikin ini jadi platform paling berguna untuk anak kuliahan terutama agar mereka nggak pusing urusan duit.
@Forbes Charlie Javice masuk daftar Forbes 30 Under 30 list di tahun 2019 di kategori keuangan. Javice pernah bilang kalau kesulitannya adalah skala.

Skala di dunia bisnis / startup merujuk pada kemampuan meningkatkan ukuran dan tingkat aktivitas operasional secara efisien dan efektif.
Read 23 tweets
Jan 12
Perlu dijelasin kah kalau satanic temple bukan pemuja setan.

Satanist itu gak sama dengan devil worshipper. Gak perlu ngeri-ngeri segala 😅.

Kalau nonton Hail Satan!, anggotanya anarkis aja dipecat .
Biarkan dijelaskan sama Chat GPT. Supaya kita juga ga memahami sesuatu fenomena itu hitam dan putih saja. Image
Ini dari FAQ @satanic_temple_ Image
Read 6 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(