Mikael Dewabrata 📊 Profile picture
Feb 22, 2023 25 tweets 10 min read Read on X
Untuk edisi #rabuTableau minggu ini, gue mau bahas soal data preparation atau persiapan data. Meski beberapa bagian di thread ini spesifik untuk digunakan untuk Tableau, namun banyak poin yg bermaanfaat untuk analisis data juga kok.

Mari kita belajar ngolah data! 📊
Biar lebih paham, sebelum berkutat ke tools @tableau atau @tableaupublic , gue mau sharing dulu apa itu data preparation.

Lo bisa simak gimana prinsip-prinsip mengolah data supaya bisa digunakan dengan layak nantinya.
Proses data preparation itu termasuk tahapan penting. Tujuannya agar data yg kita punya reliable. Selain itu, data juga bisa dibikin lebih ringkas, biar nantinya kita ga pusing atau repot sendiri saat dikulik.

Biar lebih paham, coba perhatikan gambar di bawah ini:
Gambar nomor 1 adalah proses pengumpulan data.

Umumnya, data yang kita dapatkan itu berantakan. Apalagi kalau datanya dapat dari berbagai sumber.

Kalaupun tidak berantakan, kadang formatnya tidak sesuai dengan apa yang kita harapkan.
Mungkin sebagian punya pengalaman, ketika ngumpulin data, pasti puyeng dengan berantakannya data itu.

Problemnya macem-macem, umumnya adalah:

- datanya gak terstruktur rapi
- gak lengkap alias banyak NA
- gak konsisten
- banyak karakter gak jelas
- dst
Tentunya jika data tidak sesuai harapan atau berantakan, perlu dirapikan. Obviously.

Nah, gak perlu kaget saat kita bekerja sebagai analis atau sebagai data scientist, kebanyakan waktu habis untuk merapikan data itu sendiri.

Proses di preparation ini dinamakan data cleaning.
Apa yang harus di-cleaning ya itu tentu macam-macam. Gue coba kasih beberapa hal yang perlu di thread ini, terutama jika datanya mau dipakai buat bikin #dataviz di Tableau.
Tableau Public sebenarnya bisa menarik data dari berbagai jenis sumber. Salah satunya juga bisa connect ke Google Sheets.

Tapi, untuk panduan di sini contoh yg gue pake adalah kalau kita memilih menggunakan file csv.

Buat yg ga tau CSV: howtogeek.com/348960/what-is…
Untuk cleaning tools-nya pakai apa? Sebenarnya di Tableau ada tapi harus yg langganan, tools itu namanya Tableau Prep.

Untuk versi yg free kita bisa gunakan tools eksternal seperti R, Python, atau bisa juga pakai Google Sheets.

Gue sendiri mix antara Google Sheets dan R.
Hal pertama yg dilakukan adalah memilih kolom yg diperlukan. Ambil kolom-kolom atau field yg dibutuhkan. Sisanya buang.

Selain itu, kolom-kolomnya dikasih nama dengan format yang jelas dan rapi. Kalau kolomnya masih alay, juga dirapiin lower / upper case-nya.
Pengalaman gue memang kadang data yg diambil memasukkan terlalu banyak informasi yg gak elok diolah buat data analyst.

Nantinya saat sudah dipilih, kita save ke CSV baru dengan kolom yg lebih ringkas.
Setelah kolom dipilih, jangan lupa untuk cek data type di data kita. Memang di Tableau sendiri mereka bisa menerka otomatis tipe data yg kita impor.

Tapi, kita juga perlu punya pegangan, karena kadang Tableau ga 100% akurat, dan nantinya kita bisa set manual di situ.
Jika sudah, jangan di save ke csv dulu. Tugas lo masih panjang lol. Lakukan cek data apakah bersih apa nggak.

Ceklist yg perlu dilakukan dalam data cleaning biasanya gini:

- Cari value yg hilang (NA / null)
- Cek outlier
- Temukan data duplikat
- Benerin format yg ga konsisten
Data hilang

Kita identifikasi lalu lakukan sesuatu ke value yg NA atau null dalam dataset. Ini bisa dilakukan dengan cara menghapus titik data, menggantinya dengan nilai yang sesuai seperti rata-rata atau median, atau mengisi nilai yang hilang menggunakan teknik statistik.
Outlier

Identifikasi outlier di data, lalu lakukan sesuatu. Bisa dengan menghapus outlier atau mentransformasi data. Tangani dengan bijak ya, karena ga setiap outlier harus dihilangkan datanya.
Cek duplikat

Data duplikat kadang ngeselin. Kadang ini terjadi dan ditemukan dalam data yg kita punya. Sebabnya macam-macam. Bisa kesalahan saat input, atau bisa juga terjadi malah kita yg bikin saat data lagi diolah.
Data Inkonsisten

Ini juga ngeselin. Kadang format data itu gak konsisten. Ini harus dibikin seragam agar nanti saat dilakukan plot atau kalkulasi jadi rapi.

Kalau gak konsisten, nanti ada produk 'Microwave' dan 'Mikrowave' seperti chart di kanan bawah ini:
Uraian di atas adalah prinsip dasarnya. Tapi, Tableau juga kasih catatan kira-kira data apa yang perlu kita perhatikan.

Pertama formatnya adalah kolom dan baris. Setiap baris itu representasi satu item. Tiap kolom juga representasi satu atribut data.
Tableau bisa handle data baik long atau wide format. Tapi, agar nantinya saat bikin visualisasi bisa lebih enak, disarankan memakai format long atau tall.

Di tableau ada fitur pivot, tapi kita juga bisa pivot pakai tools eksternal. Contoh di gambar kanan adlah pakai #Rstats.
Kalau mau lebih jelas soal wide atau long format bisa baca di sini:

towardsdatascience.com/long-and-wide-…
Tabel atau data dengan long format memang lebih ramah untuk fitur-fitur di Tableau, filter misalnya. Contoh di bawah adalah #dataviz gue yg ada filternya pake data long format.
Kalau sudah, boleh deh file-nya disimpan dalam bentuk CSV. Untuk tahapan berikut bisa cek di thread #rabuTableau sebelumnya soal bikin data viz pertama:

Setelah data di-import, kita bisa cek apakah Tableau sudah benar mengintrepretasi jenis data yang kita punya. Kalau belum bisa diganti secara manual.

Gambar di bawah menjelaskan icon2 tipe data:
Kalau dalam prosesnya ternyata datanya masih belum sesuai harapan, sebenarnya dari Tableau bisa walau ga gitu intuitif ya.

Tapi, misal ga mau keluar masuk Tableau, beberapa fitur ada seperti ganti nama kolom / field, split data, bikin kolom baru lewat kalkulasi.
Nah, silahkan ya persiapin datanya sebelum dibikin #dataviz.

Kalau uda rapi, pas disetup juga lebih enak.

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Mikael Dewabrata 📊

Mikael Dewabrata 📊 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @MikaelDewabrata

Oct 4
Awalnya saya pengen banget punya kacamata canggih Meta. Setelah nonton video ini, jadi inget social engineering fraud.

Kacamata ini bisa jadi satu alat untuk disalahgunakan scammer. Bayangin skema kerja sama yang dilakukan buat mulusin modus mereka.

Misal ada satu orang di lapangan pake kacamata ini, tugas dia deketin target, lalu scan mukanya pake kacamata.

Dari jauh, ada yang sudah siap menerima info tersebut. Dapet foto muka, mereka bisa cari info-info yang diperlukan.Image
Image
Dari foto, mereka bisa telusuri namanya karena data dari image recognition bisa membantu kroscek ke data identitas, jika ada.

Tools sederhana sebenarnya cukup, tapi misal wajah kita ga ada di publik, maka kudu pake data lain. Data apa coba? Image
Read 13 tweets
Sep 6
Jika ingin latihan, belajar, atau mencoba berbagai hal menarik dari Power BI, saya buat satu trid lagi.

Kali ini lebih banyak di materi praktis dan teknis yang bisa teman-teman coba langsung latihannya.

Buat pemula yang mau dive in, boleh.

Simak dan Bookmark!Image
Bagi yang belum kenal, saya rutin bikin workshop berbagai tema. Minggu ini sebagai kickstart setelah cukup lama vakum, saya dan @alvinisk memberi materi Mini Workshop Power BI yang kini sudah di batch ke-5.

Silahkan jika ingin daftar bisa cek di bawah:

@alvinisk Github ini mungkin sudah tidak terlalu update, tapi lumayan ngasih beberapa file pbix penting buat kita lihat-lihat. Silahkan ke URL di bawah ini buat cek contoh template Power BI yang bisa kita coba.

URL: github.com/PowerBi-Projec…

Image
Image
Read 8 tweets
Aug 20
Untuk memberikan saya energi tambahan, saya membuka kelas Bikin Dashboard dengan Excel tanpa biaya alias GRATIS.

Tetapi, tentu kuota terbatas dan saya akan seleksi pesertanya. Bagi yang tertarik bisa isi form di post setelah ini.Image
Kelas ini akan dilakukan di sabtu / minggu untuk total dua kali pertemuan. Waktu TBA.

Peserta yang diseleksi tidak saya sebutkan di sini kriterianya. Pokoknya diselesaikan dan wajib bikin dashboard.

Form:
forms.gle/UAZV35zQddS9qf…
Peserta yang saya pilih akan beragam latar belakangnya. Jadi, siapa saja bisa ikut. Saya seleksi ya, lihat dari motivasinya.
Read 6 tweets
Jun 28
Summer Sale dari @Steam sudah dimulai. Incer game apa aja? Saya mungkin cuma beli 1 buat kebutuhan review saja. Cari yang baru dan indie.

Sekalian saya list aja game-game bagus yang lagi murah baget. Image
@Steam Disco Elysium cuma 16 ribu.
Image
Image
@Steam CIV VI harganya 22 ribu.
Image
Image
Read 50 tweets
Jun 5
Kelas malam ini saya melakukan demonstrasi konsep decluttering agar data viz yang kita bikin lebih fokus dan jelas.

Di trid ini saya sedikit menjelaskan kenapa kita tidak boleh pasang chart yang by default dari tools-nya.

Simak dan Bookmark!Image
Sebelum lanjut, mengenai bikin chart yang efektif dan fokus ada lebih dalam dengan latihan juga ada di dalam silabus (lengkapnya coming soon) kelas data driven presentation di bawah ini.

Jadi, gak ada lagi tuh bikin deck yang keramean.

Saat kita bikin chart, mau itu Tableau atau Power BI atau apapun, by default, biasanya ada pengaturan chart yang ga memadai.

Tools-nya tidak salah, karena mereka mau kasih gambaran info dari chart itu.

Salah kita kalau dibiarin gitu saja. Image
Read 9 tweets
May 13
Andai saya tahu ini dari awal. Saat belajar data science dan visualisasi data, yang saya tahu cuma gimana bikin chart a dari data a.

Tapi, saya tidak tahu bahwa ada skill yang perlu saya pelajari lebih dalam: Storytelling

Datacamp bikin cheat sheet-nya. Simak dan Bookmark!Image
Tulisan ini dalam rangka 31 Day Posting Challenge dari Mas @narawastu

Day 13: Apa yang kamu harap kamu ketahui saat kamu memulai karirmu/proses belajarmu?

Storytelling ini patut saya pelajari supaya presentasi saya baik di publik maupun dalam bentuk tulisan atau video memiliki alur yang menarik.

Kemarin baru dimentorin soal ini, dan ngerasa ini learning path baru saya.

Btw, cheat sheet dari Data Camp:

images.datacamp.com/image/upload/v…Image
Read 13 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(