給爬蟲新手的 Python Excel 寫入實作範例 (2)

Python爬蟲 — Web Crawler and Data Loading into Excel CSV file

Toni
3 min readDec 2, 2020

上一篇中我們簡單的介紹了Python爬蟲並成功把內文頁的所有標題都抓下來了,這篇我們會將抓下來的東西創建一個 Excel 並存入 CSV 檔中

前篇:

  • 使用語言:Python
  • 使用工具:Anaconda 的 Jupyter Notebook
  • 使用的 Python Package:requests, BeautifulSoup, Pandas
  • 爬取的網址:https://www.gofreight.co/blog
import requests
from bs4 import BeautifulSoup
import pandas as pd

這次我們多使用了一個 Pandas 的 package,Pandas 是一個簡單操作又相當高效的 Data frame,可以在短時間內匯入及處理大量的資料,匯入後我們可以用簡單的語法執行補空值、截取片段、分析 Outlier 等等

下面順便爬了標題連結的網址

web = []
for i in contents:
if "https" in str(i['href']):
web.append(str(i['href']))
print(web)

接下來,我們先設定一個 df 用來存入我們等等要用的值,寫一個 for 迴圈,將剛剛從網站抓取的標題及網址依依匯入 df 中的 list,並利用 \n 來進行換行的分隔,最後用 append 存入 df[‘指定的行’]

df = {'Page title':[], 'URL Link':[]}for index in A:
index = index.split("\n")[0]
df['Page title'].append(index)
for url in web:
url = url.split("\n")[0]
df['URL Link'].append(url)

接下來就剩下匯入 Excel 的最後兩行了

# df = pd.DataFrame.from_dict(df, orient = 'index') # 橫的
df = pd.DataFrame.from_dict(df) # 直的
df.to_csv("file.csv", index = False) # 也可以將csv改成xlsx

將剛剛已經存入爬蟲取得的目標透過 pd 存入 df,然後使用 to_csv 匯出 CSV檔,可以看需求及偏好存成上面直的或橫的,檔案會出現在和執行檔的同個資料夾中喔!

附上此篇網路爬蟲的 Github 連結

有任何python爬蟲的問題歡迎留言詢問,可以的話也幫忙拍拍手

--

--

Toni

EECS畢業|MBA碩士|美商實習|日商實習 順便分享一些Data的小工具, 歡迎寄信到toniintech@gmail.com