WEB SCRAPPING
Pada blog sebelumnya, kita sudah mempelajari tentang WordCloud yang bisa digunakan untuk voting, highlight keyword, atau bahkan cuma seru2an aja, dan blog nya bisa dibaca disini. Nahhh pada word cloud sebelumnya kita mengganggunakan data text statis yang didapat pada sebuah variable. Sedangkan sekarang kita akan menggunakan data dynamic dihasilkan dari WEB SCRAPPING. Webscrapping itu apa sih? Bukan, ini bukan mesin sekrap atau mesin pemahat kayu yg biasa dipakai di pabrik2. WebScrapping itu kayak kita ngambil data2 harga jualan, nah website itu lapak2 nya. Disini kita akan scrapping google play store buat liat rating orang2, dan disini aku pakai Game HONKAI STAR RAIL. Apa itu honkai star rail? Sayang sekali gaada endorsement jadi aku gaakan bahas YAHAHHA.
Apa itu webscrapping?
Nahh, jadi gini le. Webscrapping ituu kayak yang tadi udah gw bilang, kita ngambil data2 dari website buat kita pake, dan disini yg gw scrapping adalah data rating di google play store. Nahh, daripada kita harus copas satu2, kita pake python buat scrapping biar cepet, langsung semua data rating kita dapetin.
Tujuan Webscrapping apa bang?
Tujuan dan fungsi webscrapping itu ada banyak. Buat ngumpulin data yang bisa dipake buat analisis, riset akademis / penelitian, monitoring harga prodak (buat bisnis yg lg mantau harga kompetitor), data buat machine learning / AI, dan automisasi kerjaan2 yg copas2 ribuan data, daripada capek copas mending pake webscrapping ajaa.
Contoh Webscrapping gimana bang?
Nahh, contoh webscrapping itu gini, aku lgsg kasih codenya aja lah ya, disini aku scrapping rating google play store buat game masterpiece satu ini, HONKAI: STAR RAIL.
Nih gw kasi codenya aja MAKDUARRRR
# STEP 1
# WebScrapping
!pip install google-play-scraper
from google_play_scraper import app, reviews, Sort, reviews_all
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud
scrapreview = reviews_all(
'com.HoYoverse.hkrpgoversea',
sleep_milliseconds=0, # defaults to 0
lang='id', # defaults to 'en'
country='id', # defaults to 'us'
sort=Sort.NEWEST, # defaults to Sort.MOST_RELEVANT
count=10
)
print("SCRAPPING DONE!")
print("SCRAPPING DONE!")
print("SCRAPPING DONE!")
# STEP 2
#Pisahkan ini dalam satu sel sendirian
scrapreview
# Save to CSV
import csv
with open ('customer_review.csv', mode = 'w', encoding = 'utf-8') as file:
writer = csv.writer(file)
writer.writerow(['review'])
for review in scrapreview:
writer.writerow([review['content']])
# Load CSV
app_reviews_df = pd.DataFrame(scrapreview)app_reviews_df.shapeapp_reviews_df.head()app_reviews_df.to_csv('customer_review.csv', index=False)
# Membuat DataFrame dari hasil scrapreviewapp_reviews_df = pd.DataFrame(scrapreview)
# Menghitung jumlah baris dan kolom dalam DataFramejumlah_ulasan, jumlah_kolom = app_reviews_df.shapeprint (jumlah_ulasan, jumlah_kolom)
app_reviews_df = pd.DataFrame(scrapreview)
app_reviews_df.shape
app_reviews_df.head()
app_reviews_df.to_csv('customer_review.csv', index=False)
# Membuat DataFrame dari hasil scrapreview
app_reviews_df = pd.DataFrame(scrapreview)
# Menghitung jumlah baris dan kolom dalam DataFrame
jumlah_ulasan, jumlah_kolom = app_reviews_df.shape
print (jumlah_ulasan, jumlah_kolom)
# STEP 3
#Pisahkan ini dalam satu sel sendirian
app_reviews_df
# Tampilkan dalam bentuk wordcloud
text1 = app_reviews_df['content']
# Creating word_cloud with text as argument in .generate() method
word_cloud1 = WordCloud(collocations = False, background_color = 'white',
width = 2048, height = 1080).generate(" ".join(text1.dropna()))
# saving the image
word_cloud1.to_file('got.png')
# Display the generated Word Cloud
plt.imshow(word_cloud1, interpolation='bilinear')
plt.axis("off")
plt.show()
Hasilnya gimana bang?
Aneh? Iya gatau kenapa dah itu yg typo dari BAGUS jadi BAGU banyak bet lagi cok- Forget it- Nahh jadii itu dia contoh WEB SCRAPPING IN PYTHON.
Ciao~ @GTx
Tidak ada komentar:
Posting Komentar