給爬蟲新手的 Python Excel 寫入實作範例 (2)

Python爬蟲 — Web Crawler and Data Loading into Excel CSV file

Toni

3 min readDec 2, 2020

上一篇中我們簡單的介紹了Python爬蟲並成功把內文頁的所有標題都抓下來了，這篇我們會將抓下來的東西創建一個 Excel 並存入 CSV 檔中

前篇：

給爬蟲新手的 Python Excel 寫入實作範例 (1)

Web Crawler and Data Loading into Excel CSV file

tonidata.medium.com

使用語言：Python
使用工具：Anaconda 的 Jupyter Notebook
使用的 Python Package：requests, BeautifulSoup, Pandas
爬取的網址：https://www.gofreight.co/blog

import requests
from bs4 import BeautifulSoup
import pandas as pd

這次我們多使用了一個 Pandas 的 package，Pandas 是一個簡單操作又相當高效的 Data frame，可以在短時間內匯入及處理大量的資料，匯入後我們可以用簡單的語法執行補空值、截取片段、分析 Outlier 等等

下面順便爬了標題連結的網址

web = []
for i in contents:
    if "https" in str(i['href']):
            web.append(str(i['href']))
print(web)

接下來，我們先設定一個 df 用來存入我們等等要用的值，寫一個 for 迴圈，將剛剛從網站抓取的標題及網址依依匯入 df 中的 list，並利用 \n 來進行換行的分隔，最後用 append 存入 df[‘指定的行’]

df = {'Page title':[], 'URL Link':[]}for index in A:
    index = index.split("\n")[0]
    df['Page title'].append(index)for url in web:
    url = url.split("\n")[0]
    df['URL Link'].append(url)

接下來就剩下匯入 Excel 的最後兩行了

# df = pd.DataFrame.from_dict(df, orient = 'index') # 橫的
df = pd.DataFrame.from_dict(df) # 直的
df.to_csv("file.csv", index = False) # 也可以將csv改成xlsx

將剛剛已經存入爬蟲取得的目標透過 pd 存入 df，然後使用 to_csv 匯出 CSV檔，可以看需求及偏好存成上面直的或橫的，檔案會出現在和執行檔的同個資料夾中喔！

附上此篇網路爬蟲的 Github 連結

Tonyyengithub/GoFreight_website_Crawling

Contribute to Tonyyengithub/GoFreight_website_Crawling development by creating an account on GitHub.

github.com

有任何python爬蟲的問題歡迎留言詢問，可以的話也幫忙拍拍手