Jumat, 02 Mei 2025

How to Inspect Dataset in Jupyter Notebook

INSPECTING DATASET in Jupyter Notebook

Setelah kemarin kita sudah belajar PANDAS dan gimana cara Load Dataset (Baca disini ges), Sekarang kita bakal INSPECTING DATASET yang udah kita proses, buar mastiin kalo kualitas data kita sesuai nih sama standar yang kita mau. Ada beberapa cara yang cukup penting buat meng-observasi dan ngukur kualitas data yang kita punya, contohnya df.head() dan df.info.

NAH, APA AJA YANG BAKAL KITA BAHAS?

  • Describe
  • Info
  • Missing Value
  • Render Histogram for Frequency
  • Render Scatter for Relationship (tenang ini bukan scatter nya judol)
  • Render Pie for Distribution

Oke, sekarang kita masuk ke DESCRIBE

Apa itu describe? Kalo kodenya, sesimpel df.describe(). Nah, df.describe ini buat apa? df.describe() itu kayak quick review atau tes kesehatan buat data numerik lupada. Dengan command ini, lupada bisa dapetin statistik deskriptif penting, kayak: 

  • Count: Jumlah nilai non-null di kolom
  • Mean: Rata-rata
  • Std: Standar deviasi (sebarnya, variabilitas data) 
  • Min: Nilai terendah 
  • 25%: Kuartil pertama (persentil ke-25)
  • 50%: Median (persentil ke-50)
  • 75%: Kuartil ketiga (persentil ke-75)
  • Max: Nilai tertinggi

Nah, dari statistik-statistik itu, kita juga bisa ngecek apakah datanya sehat atau enggak.
Misalnya nih, kalau ada angka yang gak masuk akal, atau error — bakal langsung ketauan!

Kita masuk ke yang ke-dua, INFO (df.info) !

Info tuh apa sih? Oke, df.info() itu semacam summary atau CV dari dataset lo. Jadi lo bisa tau struktur data lo secara cepat, kayak siapa- eh maksudnya apa aja yang ada di dalam dataset. Hasil dari df.info() biasanya ngasih tau:

  • Jumlah baris dan kolom (shape)
  • Nama kolom
  • Tipe data masing-masing kolom (numerik, string, dll)
  • Jumlah data non-null di tiap kolom (jadi bisa tau ada yang missing atau nggak)

Biasanya, outputnya kayak gini:

Dengan df.info(), lo bisa langsung ngecek kualitas data dan tau bagian mana yang perlu dibenerin, misalnya kolom yang banyak missing atau tipe data yang salah.

Oke, selanjutnya, Handling Missing Value, kita pake cara yang paling gampang,  yaitu menggunakan Mean (Rata-Rata)

Handling missing value tuh buat apa sih? Jadi, handling missing value itu buat ngerapihin data2 yang hilang atau NaN supaya ga ganggu analisis lupada. Nah cara paling gampang itu pake Mean atau Rata2. Caranya gimana?

Nih, langsung aja gw kasih kodenya daripada lu mabok. APA MANTRANYA?
JEDER MODYAR KOWE OAWKAOAOKAWK

Kenapa kita pake mean?

Soalnya mean itu bakal ngasih angka yang ga jauh dari nilai lain, jadi datanya stabil, statistiknya jadi ga dangdut.

Lanjut, RENDER HISTOGRAM!

Render Histogram itu intinya lo lagi bikin visualisasi distribusi data numerik dalam bentuk grafik batang (bar chart) yang nunjukkin frekuensi atau seberapa banyak nilai dalam rentang tertentu.

Contohnya gimana banh 👆🏻🤓

Nih gw kasih contohnya JEDER MODYAR MANING KOWE AOWKAOKOAWWOKA

Sekarang, SCATTER!

Scatter tuh apa? Tenang ini bukan scatter yang di Judol. Scatter itu lupada ngebuat scatter plot (Plot Titik2) buat liat hubungan antar variabel numerik.

Contohnya gimana banh 👆🏻🤓

Nih gw kasih contohnya JEDER DUARRRRRRRRRRRR

Kok keliatannya simpel banh? Kayanya gua pernah liat yang ribet, ada ga? ADA DONG! Nih, mumet mumet dah awoakowka:

(Ini ga di share ya wkwkwkwk)

Nah, udah kan? Terakhir, sekarang kita bakal bahas RENDER PIE!

Apa itu render pie? Ngga ini bukan kue beneran, tapi kayak diagram yang bentuknya kayak kue pie- lebih kayak pizza sih tapi oke lah- Balik lagi, Render pie itu artinya lo bikin diagram lingkaran (a.k.a. pie chart) buat nunjukin distribusi proporsi kategori dalam satu kolom. Bentuknya gimana sih? NIH GW KASIH JEDER DUARRRRRR AWOAOKOAWK

Nahh, jadi gitu cuy cara inspecting dataset. Kode2nya gimana banh? Nih gua kasih satu2. Tiap Code Bar dipisahin pake tulisan #Tulisan warna biru. Ikutin aja urutannya kayak dibawah. KODE DIBAWAH SUDAH DISINKRONKAN, TIDAK SAMA PERSIS DENGAN CONTOH DIATAS.

# IMPORT DATASET
import pandas as pd
# Mount GDrive
from google.colab import drive
drive.mount('/content/drive')

#Get Dataset
df = pd.read_csv('/content/drive/MyDrive/FUNCODING/Rainfall_India.csv',delimiter=",", header=0)

#Tampilkan Dataset
#print(df)

df.head(100)
#df.head(1)

#Fix the column title
new_column_names = ['STATE_UT_NAME', 'DISTRICT'] + list(df.columns[2:])
df.columns = new_column_names
print(df)
#Describe
df.describe()
#Info
df.info()
#Handling Missing Value Using Mean
fill_by_mean = df['FEB'].fillna(df['FEB'].mean())
print (fill_by_mean)
#Render Histogram
#Histogram
import matplotlib.pyplot as plt

plt.hist(df['MAY'], bins=10, edgecolor='black')
plt.title('Distribusi Skor Klub')
plt.xlabel('May')
plt.ylabel('Frekuensi')
plt.show()
# Render Scatter
#Scatter
x1 = df['JAN']
y1 = df['FEB']

plt.scatter(x1, y1, label="JAN vs FEB")
plt.xlabel('JAN')
plt.ylabel('FEB')
plt.title('Scatter Plot of JAN vs. FEB')
plt.show()
# RENDER PIE
import matplotlib.pyplot as plt

display(df.JAN.value_counts().to_frame())
ax = df.JAN.value_counts().plot(kind='pie', figsize=(8, 8), autopct='%1.1f%%', startangle=90, shadow=True, fontsize=16)
ax.set_ylabel('')
ax.set_title('JAN Distribution')
plt.show()

Nahh jadi itu dia cuy gimana cara inspect dataset di Jupyter Notebook, gimana liat data yang udah dicek kualitasnya, dll.

Ciao ngwehehehe~

~GTx

SUBREK OAWKOAKW

1 komentar:

MULTISOUND TRAFFIC ORI V2 BY GTx

Ya halo cuy! Kembali lagi bersama gw di channel GTx. Kali ini gw mau share KODENAME MULTISOUND TRAFFIC ORI UPDATE V2 - BUSSID V4.3.4 Credit ...