Python爬蟲項目--貓眼電影Top100榜

来源:https://www.cnblogs.com/star-zhao/archive/2018/09/11/9630042.html
-Advertisement-
Play Games

本次抓取貓眼電影Top100榜所用到的知識點: 1. python requests庫 2. 正則表達式 3. csv模塊 4. 多進程 正文 目標站點分析 通過對目標站點的分析, 來確定網頁結構, 進一步確定具體的抓取方式. 1. 瀏覽器打開貓眼電影首頁, 點擊"榜單", 點擊"Top100榜", ...


 本次抓取貓眼電影Top100榜所用到的知識點:

1. python requests庫

2. 正則表達式

3. csv模塊

4. 多進程

正文

目標站點分析

通過對目標站點的分析, 來確定網頁結構, 進一步確定具體的抓取方式.

1. 瀏覽器打開貓眼電影首頁, 點擊"榜單", 點擊"Top100榜", 即可看到目標頁面. 

2.  瀏覽網頁, 滾動到下方發現有分頁, 切換到第2頁, 發現: URL從 http://maoyan.com/board/4變換到http://maoyan.com/board/4?offset=10, 多次切換頁碼offset都有改變, 可以確定的是通過改變URL的offset參數來生成分頁列表.

項目流程框架:

獲取單頁源碼

 1 #抓取貓眼電影TOP100榜
 2 import requests
 3 import time
 4 from requests.exceptions import RequestException
 5 def get_one_page():
 6     '''獲取單頁源碼'''
 7     try:
 8         url = "http://maoyan.com/board/4?offset={0}".format(0)
 9         headers = {
10             "User-Agent":"Mozilla/5.0(WindowsNT6.3;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/68.0.3440.106Safari/537.36"
11         }
12         res = requests.get(url, headers=headers)
13         # 判斷響應是否成功,若成功列印響應內容,否則返回None
14         if res.status_code == 200:
15             print(res.text)
16         return None
17     except RequestException:
18         return None
19 def main():
20     get_one_page()
21 if __name__ == '__main__':
22     main()
23     time.sleep(1)

執行即可得到網頁源碼, 那麼下一步就是解析源碼了

解析單頁源碼

導入正則表達式re模塊, 對代碼進行解析, 得到想要的信息.

 1 import re
 2 
 3 def parse_one_page(html):
 4     '''解析單頁源碼'''
 5     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime'
 6                          + '.*?>(.*?)</p>.*?score.*?integer">(.*?)</i>.*?>(.*?)</i>.*?</dd>',re.S)
 7     items = re.findall(pattern,html)
 8     print(items)
 9     #採用遍歷的方式提取信息
10     for item in  items:
11         yield {
12             'rank' :item[0],
13             'title':item[1],
14             'actor':item[2].strip()[3:] if len(item[2])>3 else '',  #判斷是否大於3個字元
15             'time' :item[3].strip()[5:] if len(item[3])>5 else '',
16             'score':item[4] + item[5]
17         }
18 def main():
19     html = get_one_page()
20     for item in parse_one_page(html):
21         print(item)
22 
23 if __name__ == '__main__':
24     main()
25     time.sleep(1)

提取出信息之後, 那麼下一步就是保存到文件

保存到文件中

這裡採用兩種方式, 一種是保存到text文件, 另一種是保存到csv文件中, 根據需要選擇其一即可.

1. 保存到text文件

 1 import json
 2 
 3 def write_to_textfile(content):
 4     '''寫入到text文件中'''
 5     with open("MovieResult.text",'a',encoding='utf-8') as f:
 6         #利用json.dumps()方法將字典序列化,並將ensure_ascii參數設置為False,保證結果是中文而不是Unicode碼.
 7         f.write(json.dumps(content,ensure_ascii=False) + "\n")
 8         f.close()
 9 def main():
10     html = get_one_page()
11     for item in parse_one_page(html):
12         write_to_textfile(item)
13 
14 if __name__ == '__main__':
15     main()
16     time.sleep(1)

2. 保存到CSV文件

其文件以純文本的形式存儲表格數據

 1 import csv
 2 def write_to_csvfile(content):
 3     '''寫入到csv文件中'''
 4     with open("MovieResult.csv",'a',encoding='gb18030',newline='') as f:
 5         # 將欄位名傳入列表
 6         fieldnames = ["rank", "title", "actor", "time", "score"]
 7         #將欄位名傳給Dictwriter來初始化一個字典寫入對象
 8         writer = csv.DictWriter(f,fieldnames=fieldnames)
 9         #調用writeheader方法寫入欄位名
10         writer.writeheader()
11         writer.writerows(content)
12         f.close()
13 def main():
14     html = get_one_page()
15     rows = []
16     for item in parse_one_page(html):
17         #write_to_textfile(item)
18         rows.append(item)
19     write_to_csvfile(rows)
20 if __name__ == '__main__':
21     main()
22     time.sleep(1)

單頁的信息已經提取出, 接著就是提取多個頁面的信息

獲取多個頁面

1. 普通方法抓取

 1 def main(offset):
 2     url = "http://maoyan.com/board/4?offset={0}".format(offset)
 3     html = get_one_page(url)
 4     rows = []
 5     for item in parse_one_page(html):
 6         #write_to_textfile(item)
 7         rows.append(item)
 8     write_to_csvfile(rows)
 9 if __name__ == '__main__':
10     #通過遍歷寫入TOP100信息
11     for i in range(10):
12         main(offset=i * 10)
13         time.sleep(1)

2. 多進程抓取

1 from multiprocessing import Pool
2 
3 if __name__ == '__main__':
4     # 將欄位名傳入列表
5     fieldnames = ["rank", "title", "actor", "time", "score"]
6     write_to_csvField(fieldnames)
7     pool = Pool()
8     #map方法會把每個元素當做函數的參數,創建一個個進程,在進程池中運行.
9     pool.map(main,[i*10 for i in range(10)])

 完整代碼

 1 #抓取貓眼電影TOP100榜
 2 from multiprocessing import Pool
 3 from requests.exceptions import RequestException
 4 import requests
 5 import json
 6 import time
 7 import csv
 8 import re
 9 def get_one_page(url):
10     '''獲取單頁源碼'''
11     try:
12         headers = {
13             "User-Agent":"Mozilla/5.0(WindowsNT6.3;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/68.0.3440.106Safari/537.36"
14         }
15         res = requests.get(url, headers=headers)
16         # 判斷響應是否成功,若成功列印響應內容,否則返回None
17         if res.status_code == 200:
18             return res.text
19         return None
20     except RequestException:
21         return None
22 def parse_one_page(html):
23     '''解析單頁源碼'''
24     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime'
25                          + '.*?>(.*?)</p>.*?score.*?integer">(.*?)</i>.*?>(.*?)</i>.*?</dd>',re.S)
26     items = re.findall(pattern,html)
27     #採用遍歷的方式提取信息
28     for item in  items:
29         yield {
30             'rank' :item[0],
31             'title':item[1],
32             'actor':item[2].strip()[3:] if len(item[2])>3 else '',  #判斷是否大於3個字元
33             'time' :item[3].strip()[5:] if len(item[3])>5 else '',
34             'score':item[4] + item[5]
35         }
36 
37 def write_to_textfile(content):
38     '''寫入text文件'''
39     with open("MovieResult.text",'a',encoding='utf-8') as f:
40         #利用json.dumps()方法將字典序列化,並將ensure_ascii參數設置為False,保證結果是中文而不是Unicode碼.
41         f.write(json.dumps(content,ensure_ascii=False) + "\n")
42         f.close()
43 
44 def write_to_csvField(fieldnames):
45     '''寫入csv文件欄位'''
46     with open("MovieResult.csv", 'a', encoding='gb18030', newline='') as f:
47         #將欄位名傳給Dictwriter來初始化一個字典寫入對象
48         writer = csv.DictWriter(f,fieldnames=fieldnames)
49         #調用writeheader方法寫入欄位名
50         writer.writeheader()
51 def write_to_csvRows(content,fieldnames):
52     '''寫入csv文件內容'''
53     with open("MovieResult.csv",'a',encoding='gb18030',newline='') as f:
54         #將欄位名傳給Dictwriter來初始化一個字典寫入對象
55         writer = csv.DictWriter(f,fieldnames=fieldnames)
56         #調用writeheader方法寫入欄位名
57         #writer.writeheader()            ###這裡寫入欄位的話會造成在抓取多個時重覆.
58         writer.writerows(content)
59         f.close()
60 
61 def main(offset):
62     fieldnames = ["rank", "title", "actor", "time", "score"]
63     url = "http://maoyan.com/board/4?offset={0}".format(offset)
64     html = get_one_page(url)
65     rows = []
66     for item in parse_one_page(html):
67         #write_to_textfile(item)
68         rows.append(item)
69     write_to_csvRows(rows,fieldnames)
70 
71 if __name__ == '__main__':
72     # 將欄位名傳入列表
73     fieldnames = ["rank", "title", "actor", "time", "score"]
74     write_to_csvField(fieldnames)
75     # #通過遍歷寫入TOP100信息
76     # for i in range(10):
77     #     main(offset=i * 10,fieldnames=fieldnames)
78     #     time.sleep(1)
79     pool = Pool()
80     #map方法會把每個元素當做函數的參數,創建一個個進程,在進程池中運行.
81     pool.map(main,[i*10 for i in range(10)])

效果展示: 

最終採用寫入csv文件的方式.


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 用來計算連續變數的發生率,說的很抽象,簡單說就是單獨拿出來沒什麼太大用,但並不是說這個沒什麼用,相反這個太重要了,這玩意能讓你看清世界的真相 先看個圖,像這樣的線性就是正太分佈 這是一個標準的正態分佈 正太分佈有4個特點 呈鐘形分佈,是對稱的 分佈的集中趨勢(均值、中位數、眾數)都一樣 中間最高的部 ...
  • 今天學習的內容是:JDBC http://www.cnblogs.com/centor/p/6142775.html 首先我們把這部分內容仔細閱讀然後複製粘貼到下麵 以mysql為例 工具:eclipse MySQL5.6 MySQL連接驅動:mysql-connector-java-5.1.27. ...
  • 給一個鏈表,若其中包含環,請找出該鏈表的環的入口結點,否則,輸出null 1.找鏈表倒數第k個結點,輸入一個鏈表,輸出該鏈表中倒數第k個結點。第一個指針走(k-1)步,到達第k個節點,兩個指針同時往後移動,當第一個結點到達末尾的時候,第二個結點所在位置就是倒數第k個節點了 2.原理有點像上面的,定義... ...
  • 前言 在 "上一篇" 中我們學習了結構型模式的外觀模式和裝飾器模式。本篇則來學習下組合模式和過濾器模式。 組合模式 簡介 組合模式是用於把一組相似的對象當作一個單一的對象。組合模式依據樹形結構來組合對象,用來表示部分以及整體層次。這種類型的設計模式屬於結構型模式,它創建了對象組的樹形結構。 簡單來說 ...
  • 最近由於項目需要,在研究打壓測試工具,以及當測試連接過多後端伺服器配置問題 測試工具選用locust,locust中文意思為蝗蟲,可以想象,locust就像成片的蝗蟲,撲向我們的服務。 它支持分散式的打壓測試,每個實例可自定義執行任務,執行任務可用python腳本實現,具體如何寫python腳本這裡 ...
  • 監聽器的分類 監聽域對象自身創建和銷毀的監聽器: ①ServletContextListener介面 監聽 SercvletContext對象 ②HttpSessionListener介面 監聽 HttpSession對象 ③ServletRequestListener介面 監聽 ServletRe ...
  • 題意 題目鏈接 為了固定S**p*鴿鴿,whx和zzt來到鴿具商店選購鴿子固定器。 鴿具商店有 nn 個不同大小的固定器,現在可以選擇至多 mm 個來固定S**p*鴿鴿。每個固定器有大小 sisi 和牢固程度 vivi。 如果他們選購的固定器大小不一或是不牢固,固定S**p*鴿鴿的時候肯定會很頭疼, ...
  • 數組轉List 需要註意的是, Arrays.asList() 返回一個受指定數組決定的固定大小的列表。所以不能做 add 、 remove 等操作,否則會報錯。 List staffsList = Arrays.asList(staffs); staffsList.add("Mary"); // ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...