Mau belajar Data Analyst? Mau coba project sederhana dalam mengolah data? Proyek ini akan memberikanmu gambaran bagaimana data bisa diolah.

Persiapan Software dan Dataset

Tutorial kali ini menggunakan software Microsoft Office Excel 2016.

Dataset download di sini, file serupa bisa didapat juga di kaggle.com.

Dataset kasus ini berjumlah 1026 baris dan kolom terbagi atas; ID, Marital Status, Gender, Income, Children, Education, Occupation, Home Owner, Cars, Commute Distance, Region, Age, Purchased Bike.

Proses Pengolahan Data

Pertama-tama buka dataset di MS Excel, kemudian duplikat data mentah ke tab baru sebagai working sheet, memudahkan jika ingin mengambil data mentah kembali. Pada working sheet ini kita akan melakukan normalisasi data.

Normalisasi Data

Pada tahap ini kita mengecek, memperbaiki, dan memodifikasi data agar mudah dipahami dan divisualisasi.

Membersihkan

Buat filter untuk semua kolom, dari sini bisa dilihat jika ada data yang tidak valid atau kosong. Contoh Keberadaan data tidak valid dan cara mengatasinya.

Jika ada data yang kosong, cara mengatasinya bisa dengan menyeleksi filter hanya pada <blank> dan memasukkan data pengganti. Kita anggap data kosong berarti jumlah anak 0. Hal ini berlaku pula untuk data yang keliru.

Menerjemahkan

Biar lebih dimengerti, beberapa judul kolom dan nilai data diterjemahkan ke dalam bahasa Indonesia. Sisanya yang lebih baik dalam bahasa inggris tetap dibiarkan. Menjadi; ID, Status Perkawinan, Kelamin, “Pendapatan”, “Anak”, “Pendidikan”, “Tipe Pekerjaan”, “Punya Rumah”, “Mobil”, “Jarak Perjalanan”, “Wilayah”, “Usia”, “Beli Sepeda”.

Mendeskripsikan

Kolom Status Perkawinan”dan Kelamin” memiliki simbolisasi yang mirip pada huruf M, dan juga simbol tersebut susah dipahami secara umum. Merapikannya dengan mengganti M dan S pada “Status Perkawinan”menjadi Menikah dan Lajang. Kemudian pada kolom “Kelamin”, simbol M dan F diganti menjadi Pria dan Wanita.

Menyederhanakan

Nilai Currency Pada “Pendapatan” dibulatkan simbol desimalnya. Dari $1000,00 menjadi $1000.

Memperbaiki Urutan

Dilihat dari urutan sorting di kolom “Jarak Perjalanan”, nilai 10+ Miles yang seharusnya ada di urutan terakhir, justru berada di urutan ke-2. Hal ini akan merusak tampilan presentasi data nantinya. Memperbaikinya dengan kalimat More than 10 Miles

Mengelompokkan

Pengelompokkan usia dibagi 3 kategori. Di bawah 31 tahun ditulis “Adolescent”, di antara 31 sampai 54 tahun ditulis “Middle Age”, Di atas 54 tahun ditulis “Old”.

Pivot Table

Kita akan melakukan persiapan model visual. Pergi ke tab Insert > PivotTable. Sekarang, ada 3 model chart yang akan kita buat, kita akan melihat pengaruh pembelian sepeda berdasarkan faktor-faktor berikut:

Faktor Pembelian Berdasarkan Pendapatan dan Kelamin

Pada PivotTableField kita akan Menghitung Pendapatan rata-rata (masukkan ke Values, ubah seting input menjadi Average) dari pengelompokkan berdasarkan Kelamin (masukkan ke Rows) dan Beli Sepeda (masukkan ke Collumns). Sederhanakan angka menjadi bilangan bulat, tambahkan koma untuk melihat satuan ribuan.

Sekarang kita visualisasikan. Masuk ke Insert > Insert Column or Bar Chart. Kita perjelas dengan menambahkan Axis Title (Y axis tulis Pendapatan dan X axis tulis Kelamin), Chart Title (tulis Avg Pendapatan per Pembelian Sepeda), dan Data Tables.

Faktor Pembelian Berdasarkan Jarak Perjalanan

Seleksi Sel kosong dibawah, Buat PivotTable baru. Pada PivotTableField masukkan “Jarak Perjalanan” ke Rows, lalu masukkan “Beli Sepeda” ke Collumns dan Values.

Visualisasi menggunakan Line With Marker. Tambahkan Chart Title (tulis Jarak Perjalanan tiap Orang) dan Axis Title (hapus Primari Vertical, untuk x axis tulis Jarak Perjalanan)

Faktor Pembelian Berdasarkan Usia

Sama seperti nomor 2, kali ini masukkan “Kelompok Usia” ke Rows, lalu masukkan “Beli Sepeda” ke Collumns dan Values.

Visualisasi menggunakan Line With Marker. Tambahkan Chart Title (tulis Kelompok Usia Pelanggan) dan Axis Title (hapus Primari Vertical, untuk x axis tulis Kelompok Usia)

Dashboard

Proses terakhir adalah membuat dashboard untuk agar kita bisa melihat perubahan chart dengan lebih fleksible. Tahapannya sebagai berikut:

Menyalin Chart ke Dashboard

Kali ini kita akan membuat dashboard untuk melihat tampilan data. Buat tab baru dengan nama “Dashboard”, salin ketiga Chart dari Pivot Table.

Membuat Slicer

Tambahkan Slicer dengan klik pada salah satu Chart, lalu masuk ke PivotChart Analyze > Insert Slicer. Kita akan menambahkan Slicer untuk “Status Perkawinan”, “Pendidikan”, dan “Wilayah”.  Agar Slicer memengaruhi semua chart, klik salah satu slicer, masuk ke Slicer > Report Connections, dan checklist semua Pivot.

Merapikan Tampilan

Rapikan Posisi Chart dan Slicer, Hilangkan View > Gridlines, Tambahkan judul “Dashboard Pembelian Sepeda”. Hasil akhirnya seperti dibawah.

Objektif dari projek ini adalah sebuah dashboard yang dapat digunakan untuk memberi visualisasi perbandingan dan faktor faktor penting yang memengaruhi pembelian pepeda pada kelompok wilayah dan kondisi masyarakat tertentu. Kita dapat memodifikasi dashboard tersebut sesuai kebutuhan berdasarkan data/fakta yang ingin dicari tahu.

Penulis: Leo Prangs Tobing

Referensi Project: youtube.com/@AlexTheAnalyst

Divisi Komunikasi dan Informasi
Himpunan Mahasiswa Sistem Informasi
Universitas Tanjungpura

Kategori: Data Analyst

Leo Prangs Tobing

Web Developer | Game Developer | Data Analyst

0 Komentar

Tinggalkan Balasan

Avatar placeholder

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *