給爬蟲新手的 Python Excel 寫入實作範例 (2)
上一篇中我們簡單的介紹了Python爬蟲並成功把內文頁的所有標題都抓下來了,這篇我們會將抓下來的東西創建一個 Excel 並存入 CSV 檔中
前篇:
- 使用語言:Python
- 使用工具:Anaconda 的 Jupyter Notebook
- 使用的 Python Package:requests, BeautifulSoup, Pandas
- 爬取的網址:https://www.gofreight.co/blog
import requests
from bs4 import BeautifulSoup
import pandas as pd
這次我們多使用了一個 Pandas 的 package,Pandas 是一個簡單操作又相當高效的 Data frame,可以在短時間內匯入及處理大量的資料,匯入後我們可以用簡單的語法執行補空值、截取片段、分析 Outlier 等等
下面順便爬了標題連結的網址
web = []
for i in contents:
if "https" in str(i['href']):
web.append(str(i['href']))
print(web)
接下來,我們先設定一個 df 用來存入我們等等要用的值,寫一個 for 迴圈,將剛剛從網站抓取的標題及網址依依匯入 df 中的 list,並利用 \n 來進行換行的分隔,最後用 append 存入 df[‘指定的行’]
df = {'Page title':[], 'URL Link':[]}for index in A:
index = index.split("\n")[0]
df['Page title'].append(index)for url in web:
url = url.split("\n")[0]
df['URL Link'].append(url)
接下來就剩下匯入 Excel 的最後兩行了
# df = pd.DataFrame.from_dict(df, orient = 'index') # 橫的
df = pd.DataFrame.from_dict(df) # 直的
df.to_csv("file.csv", index = False) # 也可以將csv改成xlsx
將剛剛已經存入爬蟲取得的目標透過 pd 存入 df,然後使用 to_csv 匯出 CSV檔,可以看需求及偏好存成上面直的或橫的,檔案會出現在和執行檔的同個資料夾中喔!
附上此篇網路爬蟲的 Github 連結
有任何python爬蟲的問題歡迎留言詢問,可以的話也幫忙拍拍手