【Python爬蟲實戰】多線程爬蟲---糗事百科段子爬取

-Advertisement-

多線程爬蟲：即程式中的某些程式段並行執行，合理地設置多線程，可以讓爬蟲效率更高糗事百科段子普通爬蟲和多線程爬蟲分析該網址鏈接得出：https://www.qiushibaike.com/8hr/page/頁碼/多線程爬蟲也就和JAVA的多線程差不多，直接上代碼 1 ''' 2 #此處代碼為普通爬蟲 ... ...

多線程爬蟲：即程式中的某些程式段並行執行，
合理地設置多線程，可以讓爬蟲效率更高
糗事百科段子普通爬蟲和多線程爬蟲
分析該網址鏈接得出：
https://www.qiushibaike.com/8hr/page/頁碼/

多線程爬蟲也就和JAVA的多線程差不多，直接上代碼

 1 '''
 2 #此處代碼為普通爬蟲
 3 import urllib.request
 4 import urllib.error
 5 import re
 6 
 7 headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
 8 opener = urllib.request.build_opener()
 9 opener.addheaders = [headers]
10 urllib.request.install_opener(opener)
11 for i in range(1,2):
12     url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
13     pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
14     pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'
15     datalist = re.compile(pattern,re.S).findall(pagedata)
16     for j in range(0,len(datalist)):
17         print("第"+str(i)+"頁第"+str(j)+"個段子內容是：")
18         print(datalist[j])
19 '''
20 
21 '''
22 #此處為多線程介紹代碼
23 import threading   #導入多線程包
24 class A(threading.Thread):  #創建一個多線程A
25     def __init__(self):     #必須包含的兩個方法之一:初始化線程
26         threading.Thread.__init__(self)
27     def run(self):          #必須包含的兩個方法之一：線程運行方法
28         for i in range(0,11):
29             print("我是線程A")
30 
31 class B(threading.Thread):  #創建一個多線程A
32     def __init__(self):     #必須包含的兩個方法之一:初始化線程
33         threading.Thread.__init__(self)
34     def run(self):          #必須包含的兩個方法之一：線程運行方法
35         for i in range(0,11):
36             print("我是線程B")
37 
38 t1 = A()    #線程實例化
39 t1.start()  #線程運行
40 t2 = B()
41 t2.start()
42 '''
43 
44 
45 #此處為修改後的多線程爬蟲
46 #使用多線程進行奇偶頁的爬取
47 import urllib.request
48 import urllib.error
49 import re
50 import threading
51 
52 headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
53 opener = urllib.request.build_opener()
54 opener.addheaders = [headers]
55 urllib.request.install_opener(opener)
56 class one(threading.Thread):   #爬取奇數頁內容
57     def __init__(self):
58         threading.Thread.__init__(self)
59     def run(self):
60         for i in range(1,12,2):
61             url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
62             pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
63             pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'
64             datalist = re.compile(pattern,re.S).findall(pagedata)
65             for j in range(0,len(datalist)):
66                 print("第"+str(i)+"頁第"+str(j)+"段子內容為：")
67                 print(datalist[j])
68 
69 
70 class two(threading.Thread):   #爬取奇數頁內容
71     def __init__(self):
72         threading.Thread.__init__(self)
73     def run(self):
74         for i in range(2,12,2):
75             url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
76             pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
77             pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'
78             datalist = re.compile(pattern,re.S).findall(pagedata)
79             for j in range(0,len(datalist)):
80                 print("第"+str(i)+"頁第"+str(j)+"段子內容為：")
81                 print(datalist[j])
82 t1 = one()
83 t2 = two()
84 t1.start()
85 t2.start()

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

背景圖片自適應瀏覽器大小

背景圖片自適應瀏覽器大小之前在網上看到的一個小技巧，記錄一下：背景圖片鋪滿屏幕並且可以隨著瀏覽器進行自適應，代碼如下： <body <div style="position:absolute; width:100%; height:100%; z index: 1" <img s ...
ES6 編程風格

1、塊級作用域（1）使用let代替var 好處：變數應該只在其聲明的代碼塊內有效；var命令存在變數提升效用，let命令沒有這個問題。（2）全局常量在let和const之間，建議優先使用const，尤其是在全局環境，不應該設置變數，只應設置常量。 const優於let有幾個原因。一個是cons ...
log4j2簡介

Apache Log4j 2 Apache Log4j 2是對Log4j的升級，它比它的前輩Log4j 1提供了顯著的改進。在解決Logback的架構中存在的一些固有問題時，提供了許多可用的改進。特性 API分離 Log4j的API與實現分離，使應用程式開發人員清楚地知道，他們可以使用哪些類和方法 ...
CLR via C#讀書筆記一：CLR的執行模型

CLR(Common Language Runtime)公共語言進行時是一個可由多種編程語言使用的“進行時”。將源代碼編譯成托管模塊可用支持CLR的任何語言創建源代碼文件，然後用對應的編譯器檢查語法和分析源代碼。無論選擇哪個編譯器，結果都是托管模塊(managed module)。托管模塊是標準 ...
元類與面向切麵編程

元類在 Python中，實例對象是由類生成的，而類本身也是可以被傳遞和自省的對象。那麼類對象是用什麼創建和生成的呢？答案是元類，元類就是一種知道如何創建和管理類的對象。讓我們回顧一個內置函數type()，type不僅可以返回對象的類型，而且可以使用類名稱、基類元組、類主體定義的字典作為參數來創建 ...
前後端連接（BootStrap_MySQL_MyEclipse）

今天學了前後臺的連接。之前腦子一團漿糊，就連後端對資料庫的操作都不熟。就一點點來寫吧，會多少寫多少，錯了以後再改吧，可能進步比較慢，但肯定會慢慢好起來的。以前一直對資料庫連接就不太懂。先從資料庫連接寫起。疑問點1：之前就是不明白為什麼要有一個con,而且還是Connection類型的，理解：你 ...
深入理解java虛擬機----->垃圾收集器與記憶體分配策略（下）

1. 前言記憶體分配與回收策略 JVM堆的結構分析（新生代、老年代、永久代）對象優先在Eden分配大對象直接進入老年代長期存活的對象將進入老年代動態對象年齡判定空間分配擔保 JVM堆的結構分析（新生代、老年代、永久代）對象優先在Eden分配大對象直接進入老年代長期存活的對象將進入老年 ...
Golang學習--包管理工具glide

上一篇文章中我們已經成功的運行了go的代碼，這是我們邁出的最基礎的一步。一個項目通常會依賴很多外部的庫，當依賴的庫比較多的時候，手工管理就會比較麻煩，這個時候就需要包管理工具出場了，幫你管理好所有依賴的庫。 php項目中使用composer，javascript項目中使用npm，那麼在go項目中， ...