Selamat datang di seri ke-3 belajar Data Analyst melalui project. Kali ini kita akan menggunakan Pandas Python untuk mengeksplorasi data di internet secara realtime.

Kita akan mempelajari bagaimana mengolah data ekonomi dari API FRED menggunakan Python di lingkungan Kaggle Notebook. Kita akan menggunakan beberapa modul Python seperti Pandas, Matplotlib, Plotly, dan Fred dari fredapi.

Federal Reserve Economic Data (FRED) adalah sebuah basis data online yang komprehensif yang disediakan oleh Federal Reserve Bank of St. Louis. FRED menawarkan akses ke sejumlah besar data ekonomi, termasuk; Data Makroekonomi, Data Regional, Data Internasional,  Data Keuangan, dan Data Historis.

Setelah masuk lingkungan Kaggle Notebook dan mendapatkan API Key dari FRED. Mari mulai mendata!! Ikuti langkah berikut:

1. Inisialisasi

Pada tahap inisialisasi, kita akan mengimpor modul yang diperlukan dan memasang API Key untuk mengakses data dari FRED.

a. Mengimpor Modul

Pertama-tama, kita install dulu fredapi ke direktori kaggle /dev/null/

!pip install fredapi > /dev/null

Selanjutnya import modul

import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
from fredapi import Fred

Penjelasan Modul:

  • Pandas (pd): Digunakan untuk manipulasi dan analisis data, terutama data dalam bentuk tabel (dataframe).
  • Matplotlib.pyplot (plt): Modul untuk visualisasi data dalam bentuk grafik sederhana seperti garis, batang, dan pie chart.
  • Plotly.express (px): Digunakan untuk membuat visualisasi interaktif dan lebih kompleks.
  • Fred dari fredapi: Library untuk mengakses data ekonomi dari FRED API.

b. Memasang API Key

Untuk mengakses data dari FRED, kita memerlukan API Key. Di Kaggle Notebook, kita dapat menyimpan API Key menggunakan fitur “Secrets” dari menu “Add-ons”.

Masukkan API Key ke dalam Secrets:

  • Buka Kaggle Notebook, klik “Add-ons” di bagian atas, lalu pilih “Secrets”.
  • Tambahkan secret dengan key FRED_API_KEY dan masukkan API Key Anda sebagai value.

Akses API Key dalam kode:

from kaggle_secrets import UserSecretsClient

user_secrets = UserSecretsClient()
api_key = user_secrets.get_secret("FRED_API_KEY")

2. Data Scrapping

Pada tahap ini, kita akan mengambil data ekonomi dari FRED menggunakan API yang telah kita inisialisasi.

series_id = 'GDP'
gdp_data = fred.get_series(series_id)
gdp_data.head()

Di sini, kita mengambil data GDP (Gross Domestic Product) dari FRED dengan menggunakan series_id yang sesuai. Fungsi get_series akan mengembalikan data dalam bentuk Pandas Series.

3. Data Cleaning

Data yang diambil dari API sering kali perlu dibersihkan sebelum dapat digunakan untuk analisis. Langkah-langkah umum dalam pembersihan data meliputi menangani nilai yang hilang, mengubah tipe data, dan menangani duplikasi.

# Mengonversi data menjadi DataFrame
gdp_df = gdp_data.reset_index()
gdp_df.columns = ['Date', 'GDP']

# Mengatasi nilai yang hilang
gdp_df.dropna(inplace=True)

# Memastikan tipe data yang benar
gdp_df['Date'] = pd.to_datetime(gdp_df['Date'])
gdp_df['GDP'] = gdp_df['GDP'].astype(float)

gdp_df.head()

Pada contoh di atas:

  • Kami mengonversi Pandas Series menjadi DataFrame dan memberi nama kolom.
  • Menghapus baris dengan nilai yang hilang (dropna).
  • Memastikan tipe data yang benar untuk kolom Date dan GDP.

4. Data Exploration

Pada tahap eksplorasi, kita akan membuat visualisasi dan melakukan analisis awal pada data.

a. Visualisasi Data

Menggunakan Matplotlib

plt.figure(figsize=(10, 5))
plt.plot(gdp_df['Date'], gdp_df['GDP'])
plt.title('US GDP Over Time')
plt.xlabel('Year')
plt.ylabel('GDP (in Billions)')
plt.grid(True)
plt.show()

Menggunakan Plotly

fig = px.line(gdp_df, x='Date', y='GDP', title='US GDP Over Time')
fig.show()

Kedua contoh di atas menunjukkan cara membuat visualisasi data GDP dari waktu ke waktu. Matplotlib digunakan untuk grafik sederhana, sementara Plotly menawarkan grafik interaktif.

Kesimpulan

Tutorial ini menunjukkan langkah-langkah dasar dalam mengakses dan mengolah data ekonomi dari FRED menggunakan Python di Kaggle Notebook. Dari inisialisasi dan pengaturan API Key, pengambilan data (data scraping), pembersihan data (data cleaning), hingga eksplorasi data, setiap langkah penting dalam analisis data ditunjukkan. Pandas, Numpy, Matplotlib, dan Plotly adalah modul utama yang kita gunakan untuk mempermudah proses ini.

Penulis: Leo Prangs Tobing

Referensi Project: youtube.com/@robmulla

Divisi Komunikasi dan Informasi
Himpunan Mahasiswa Sistem Informasi
Universitas Tanjungpura


Leo Prangs Tobing

Web Developer | Game Developer | Data Analyst

0 Komentar

Tinggalkan Balasan

Avatar placeholder

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *