Selamat datang di seri ke-3 belajar Data Analyst melalui project. Kali ini kita akan menggunakan Pandas Python untuk mengeksplorasi data di internet secara realtime.
Kita akan mempelajari bagaimana mengolah data ekonomi dari API FRED menggunakan Python di lingkungan Kaggle Notebook. Kita akan menggunakan beberapa modul Python seperti Pandas
, Matplotlib
, Plotly
, dan Fred
dari fredapi.
Federal Reserve Economic Data (FRED) adalah sebuah basis data online yang komprehensif yang disediakan oleh Federal Reserve Bank of St. Louis. FRED menawarkan akses ke sejumlah besar data ekonomi, termasuk; Data Makroekonomi, Data Regional, Data Internasional, Data Keuangan, dan Data Historis.
Setelah masuk lingkungan Kaggle Notebook dan mendapatkan API Key dari FRED. Mari mulai mendata!! Ikuti langkah berikut:
Daftar Isi
1. Inisialisasi
Pada tahap inisialisasi, kita akan mengimpor modul yang diperlukan dan memasang API Key untuk mengakses data dari FRED.
a. Mengimpor Modul
Pertama-tama, kita install dulu fredapi ke direktori kaggle /dev/null/
!pip install fredapi > /dev/null
Selanjutnya import modul
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
from fredapi import Fred
Penjelasan Modul:
- Pandas (pd): Digunakan untuk manipulasi dan analisis data, terutama data dalam bentuk tabel (dataframe).
- Matplotlib.pyplot (plt): Modul untuk visualisasi data dalam bentuk grafik sederhana seperti garis, batang, dan pie chart.
- Plotly.express (px): Digunakan untuk membuat visualisasi interaktif dan lebih kompleks.
- Fred dari fredapi: Library untuk mengakses data ekonomi dari FRED API.
b. Memasang API Key
Untuk mengakses data dari FRED, kita memerlukan API Key. Di Kaggle Notebook, kita dapat menyimpan API Key menggunakan fitur “Secrets” dari menu “Add-ons”.
Masukkan API Key ke dalam Secrets:
- Buka Kaggle Notebook, klik “Add-ons” di bagian atas, lalu pilih “Secrets”.
- Tambahkan secret dengan key
FRED_API_KEY
dan masukkan API Key Anda sebagai value.
Akses API Key dalam kode:
from kaggle_secrets import UserSecretsClient
user_secrets = UserSecretsClient()
api_key = user_secrets.get_secret("FRED_API_KEY")
2. Data Scrapping
Pada tahap ini, kita akan mengambil data ekonomi dari FRED menggunakan API yang telah kita inisialisasi.
series_id = 'GDP'
gdp_data = fred.get_series(series_id)
gdp_data.head()
Di sini, kita mengambil data GDP (Gross Domestic Product) dari FRED dengan menggunakan series_id
yang sesuai. Fungsi get_series
akan mengembalikan data dalam bentuk Pandas Series.
3. Data Cleaning
Data yang diambil dari API sering kali perlu dibersihkan sebelum dapat digunakan untuk analisis. Langkah-langkah umum dalam pembersihan data meliputi menangani nilai yang hilang, mengubah tipe data, dan menangani duplikasi.
# Mengonversi data menjadi DataFrame
gdp_df = gdp_data.reset_index()
gdp_df.columns = ['Date', 'GDP']
# Mengatasi nilai yang hilang
gdp_df.dropna(inplace=True)
# Memastikan tipe data yang benar
gdp_df['Date'] = pd.to_datetime(gdp_df['Date'])
gdp_df['GDP'] = gdp_df['GDP'].astype(float)
gdp_df.head()
Pada contoh di atas:
- Kami mengonversi Pandas Series menjadi DataFrame dan memberi nama kolom.
- Menghapus baris dengan nilai yang hilang (
dropna
). - Memastikan tipe data yang benar untuk kolom
Date
danGDP
.
4. Data Exploration
Pada tahap eksplorasi, kita akan membuat visualisasi dan melakukan analisis awal pada data.
a. Visualisasi Data
Menggunakan Matplotlib
plt.figure(figsize=(10, 5))
plt.plot(gdp_df['Date'], gdp_df['GDP'])
plt.title('US GDP Over Time')
plt.xlabel('Year')
plt.ylabel('GDP (in Billions)')
plt.grid(True)
plt.show()
Menggunakan Plotly
fig = px.line(gdp_df, x='Date', y='GDP', title='US GDP Over Time')
fig.show()
Kedua contoh di atas menunjukkan cara membuat visualisasi data GDP dari waktu ke waktu. Matplotlib digunakan untuk grafik sederhana, sementara Plotly menawarkan grafik interaktif.
Kesimpulan
Tutorial ini menunjukkan langkah-langkah dasar dalam mengakses dan mengolah data ekonomi dari FRED menggunakan Python di Kaggle Notebook. Dari inisialisasi dan pengaturan API Key, pengambilan data (data scraping), pembersihan data (data cleaning), hingga eksplorasi data, setiap langkah penting dalam analisis data ditunjukkan. Pandas, Numpy, Matplotlib, dan Plotly adalah modul utama yang kita gunakan untuk mempermudah proses ini.
Penulis: Leo Prangs Tobing
Referensi Project: youtube.com/@robmulla
Divisi Komunikasi dan Informasi
Himpunan Mahasiswa Sistem Informasi
Universitas Tanjungpura
0 Komentar