【Python爬蟲實戰】多線程爬蟲---糗事百科段子爬取

来源:http://www.cnblogs.com/Liuyt-61/archive/2017/12/14/8040238.html
-Advertisement-
Play Games

多線程爬蟲:即程式中的某些程式段並行執行,合理地設置多線程,可以讓爬蟲效率更高糗事百科段子普通爬蟲和多線程爬蟲分析該網址鏈接得出:https://www.qiushibaike.com/8hr/page/頁碼/多線程爬蟲也就和JAVA的多線程差不多,直接上代碼 1 ''' 2 #此處代碼為普通爬蟲 ... ...


多線程爬蟲:即程式中的某些程式段並行執行,
合理地設置多線程,可以讓爬蟲效率更高
糗事百科段子普通爬蟲和多線程爬蟲
分析該網址鏈接得出:
https://www.qiushibaike.com/8hr/page/頁碼/

多線程爬蟲也就和JAVA的多線程差不多,直接上代碼

 1 '''
 2 #此處代碼為普通爬蟲
 3 import urllib.request
 4 import urllib.error
 5 import re
 6 
 7 headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
 8 opener = urllib.request.build_opener()
 9 opener.addheaders = [headers]
10 urllib.request.install_opener(opener)
11 for i in range(1,2):
12     url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
13     pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
14     pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'
15     datalist = re.compile(pattern,re.S).findall(pagedata)
16     for j in range(0,len(datalist)):
17         print("第"+str(i)+"頁第"+str(j)+"個段子內容是:")
18         print(datalist[j])
19 '''
20 
21 '''
22 #此處為多線程介紹代碼
23 import threading   #導入多線程包
24 class A(threading.Thread):  #創建一個多線程A
25     def __init__(self):     #必須包含的兩個方法之一:初始化線程
26         threading.Thread.__init__(self)
27     def run(self):          #必須包含的兩個方法之一:線程運行方法
28         for i in range(0,11):
29             print("我是線程A")
30 
31 class B(threading.Thread):  #創建一個多線程A
32     def __init__(self):     #必須包含的兩個方法之一:初始化線程
33         threading.Thread.__init__(self)
34     def run(self):          #必須包含的兩個方法之一:線程運行方法
35         for i in range(0,11):
36             print("我是線程B")
37 
38 t1 = A()    #線程實例化
39 t1.start()  #線程運行
40 t2 = B()
41 t2.start()
42 '''
43 
44 
45 #此處為修改後的多線程爬蟲
46 #使用多線程進行奇偶頁的爬取
47 import urllib.request
48 import urllib.error
49 import re
50 import threading
51 
52 headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
53 opener = urllib.request.build_opener()
54 opener.addheaders = [headers]
55 urllib.request.install_opener(opener)
56 class one(threading.Thread):   #爬取奇數頁內容
57     def __init__(self):
58         threading.Thread.__init__(self)
59     def run(self):
60         for i in range(1,12,2):
61             url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
62             pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
63             pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'
64             datalist = re.compile(pattern,re.S).findall(pagedata)
65             for j in range(0,len(datalist)):
66                 print(""+str(i)+"頁第"+str(j)+"段子內容為:")
67                 print(datalist[j])
68 
69 
70 class two(threading.Thread):   #爬取奇數頁內容
71     def __init__(self):
72         threading.Thread.__init__(self)
73     def run(self):
74         for i in range(2,12,2):
75             url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
76             pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
77             pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'
78             datalist = re.compile(pattern,re.S).findall(pagedata)
79             for j in range(0,len(datalist)):
80                 print(""+str(i)+"頁第"+str(j)+"段子內容為:")
81                 print(datalist[j])
82 t1 = one()
83 t2 = two()
84 t1.start()
85 t2.start()

 

 

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 背景圖片自適應瀏覽器大小 之前在網上看到的一個小技巧,記錄一下:背景圖片鋪滿屏幕並且可以隨著瀏覽器進行自適應,代碼如下: <body <div style="position:absolute; width:100%; height:100%; z index: 1" <img s ...
  • 1、塊級作用域 (1)使用let代替var 好處:變數應該只在其聲明的代碼塊內有效;var命令存在變數提升效用,let命令沒有這個問題。 (2)全局常量 在let和const之間,建議優先使用const,尤其是在全局環境,不應該設置變數,只應設置常量。 const優於let有幾個原因。一個是cons ...
  • Apache Log4j 2 Apache Log4j 2是對Log4j的升級,它比它的前輩Log4j 1提供了顯著的改進。在解決Logback的架構中存在的一些固有問題時,提供了許多可用的改進。 特性 API分離 Log4j的API與實現分離,使應用程式開發人員清楚地知道,他們可以使用哪些類和方法 ...
  • CLR(Common Language Runtime)公共語言進行時是一個可由多種編程語言使用的“進行時”。 將源代碼編譯成托管模塊 可用支持CLR的任何語言創建源代碼文件,然後用對應的編譯器檢查語法和分析源代碼。無論選擇哪個編譯器,結果都是托管模塊(managed module)。托管模塊是標準 ...
  • 元類 在 Python中,實例對象是由類生成的,而類本身也是可以被傳遞和自省的對象。那麼類對象是用什麼創建和生成的呢?答案是元類,元類就是一種知道如何創建和管理類的對象。 讓我們回顧一個內置函數type(),type不僅可以返回對象的類型,而且可以使用類名稱、基類元組、類主體定義的字典作為參數來創建 ...
  • 今天學了前後臺的連接。之前腦子一團漿糊,就連後端對資料庫的操作都不熟。就一點點來寫吧,會多少寫多少,錯了以後再改吧,可能進步比較慢,但肯定會慢慢好起來的。 以前一直對資料庫連接就不太懂。先從資料庫連接寫起。 疑問點1:之前就是不明白為什麼要有一個con,而且還是Connection類型的, 理解:你 ...
  • 1. 前言 記憶體分配與回收策略 JVM堆的結構分析(新生代、老年代、永久代) 對象優先在Eden分配 大對象直接進入老年代 長期存活的對象將進入老年代 動態對象年齡判定 空間分配擔保 JVM堆的結構分析(新生代、老年代、永久代) 對象優先在Eden分配 大對象直接進入老年代 長期存活的對象將進入老年 ...
  • 上一篇文章中我們已經成功的運行了go的代碼,這是我們邁出的最基礎的一步。 一個項目通常會依賴很多外部的庫,當依賴的庫比較多的時候,手工管理就會比較麻煩,這個時候就需要包管理工具出場了,幫你管理好所有依賴的庫。 php項目中使用composer,javascript項目中使用npm,那麼在go項目中, ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...