INSPECTING
DATASET in Jupyter Notebook
Setelah kemarin kita sudah belajar PANDAS dan
gimana cara Load Dataset (Baca disini ges), Sekarang kita bakal INSPECTING
DATASET yang udah kita proses, buar mastiin kalo kualitas data
kita sesuai nih sama standar yang kita mau. Ada beberapa cara yang cukup
penting buat meng-observasi dan ngukur kualitas data yang kita punya, contohnya
df.head() dan df.info.
NAH, APA AJA YANG BAKAL KITA BAHAS?
- Describe
- Info
- Missing Value
- Render Histogram for Frequency
- Render Scatter for Relationship (tenang ini bukan scatter nya
judol)
- Render Pie for Distribution
Oke, sekarang kita masuk ke DESCRIBE
Apa itu describe? Kalo kodenya, sesimpel df.describe(). Nah,
df.describe ini buat apa? df.describe() itu kayak quick
review atau tes kesehatan buat data numerik lupada.
Dengan command ini, lupada bisa dapetin statistik deskriptif penting,
kayak:
- Count: Jumlah nilai non-null di kolom
- Mean: Rata-rata
- Std: Standar deviasi (sebarnya,
variabilitas data)
- Min: Nilai terendah
- 25%: Kuartil pertama (persentil ke-25)
- 50%: Median (persentil ke-50)
- 75%: Kuartil ketiga (persentil ke-75)
- Max: Nilai tertinggi
Nah, dari statistik-statistik itu, kita juga bisa ngecek apakah datanya sehat atau enggak.
Misalnya nih, kalau ada angka yang gak masuk akal, atau error — bakal langsung ketauan!
Kita masuk ke yang ke-dua, INFO (df.info) !
Info tuh apa sih? Oke, df.info() itu
semacam summary atau CV dari dataset lo. Jadi lo bisa tau struktur
data lo secara cepat, kayak siapa- eh maksudnya apa aja yang ada di dalam
dataset. Hasil dari df.info() biasanya ngasih tau:
- Jumlah baris dan kolom (shape)
- Nama kolom
- Tipe data masing-masing kolom (numerik,
string, dll)
- Jumlah data non-null di tiap kolom (jadi
bisa tau ada yang missing atau nggak)
Biasanya, outputnya kayak gini:
Dengan df.info(), lo bisa langsung ngecek kualitas
data dan tau bagian mana yang perlu dibenerin, misalnya kolom yang banyak
missing atau tipe data yang salah.
Oke, selanjutnya, Handling Missing Value,
kita pake cara yang paling gampang,
yaitu menggunakan Mean (Rata-Rata)
Handling missing value tuh buat apa sih? Jadi,
handling missing value itu buat ngerapihin data2 yang hilang atau NaN supaya ga
ganggu analisis lupada. Nah cara paling gampang itu pake Mean atau Rata2.
Caranya gimana?
Nih, langsung aja gw kasih kodenya daripada lu
mabok. APA MANTRANYA?
JEDER MODYAR
KOWE OAWKAOAOKAWK
Kenapa
kita pake mean?
Soalnya mean itu bakal ngasih angka yang ga
jauh dari nilai lain, jadi datanya stabil, statistiknya jadi ga dangdut.
Lanjut, RENDER HISTOGRAM!
Render Histogram
itu intinya lo lagi bikin visualisasi distribusi data numerik dalam
bentuk grafik batang (bar chart) yang nunjukkin frekuensi atau seberapa
banyak nilai dalam rentang tertentu.
Contohnya gimana banh 👆🏻🤓
Nih gw kasih contohnya JEDER
MODYAR MANING KOWE AOWKAOKOAWWOKA
Sekarang, SCATTER!
Scatter tuh apa? Tenang ini bukan scatter yang di Judol. Scatter itu lupada
ngebuat scatter plot (Plot Titik2) buat liat hubungan antar variabel numerik.
Contohnya gimana banh 👆🏻🤓
Nih gw kasih contohnya JEDER DUARRRRRRRRRRRR
Kok keliatannya simpel banh? Kayanya gua pernah liat yang ribet, ada ga? ADA DONG! Nih, mumet mumet dah awoakowka:
Nah, udah kan? Terakhir,
sekarang kita bakal bahas RENDER PIE!
Apa itu render pie? Ngga ini bukan kue beneran, tapi kayak diagram yang bentuknya kayak kue pie- lebih kayak pizza sih tapi oke lah- Balik lagi, Render pie itu artinya lo bikin diagram lingkaran (a.k.a. pie chart) buat nunjukin distribusi proporsi kategori dalam satu kolom. Bentuknya gimana sih? NIH GW KASIH JEDER DUARRRRRR AWOAOKOAWK
i am a nobody
BalasHapus