python爬煎蛋妹子圖--20多行代碼搞定煎蛋妹子圖庫

-Advertisement-

如果說一個人夠無聊的話。。。就會做一些十分美(wei)麗(suo)的事情啦哈哈哈。。。好的，話不多說，進入正題。正如標題所示，我們今天的目標很簡單：代碼要少，妹子要好。步驟如下： 1. 首先我們得確定需要用到的庫：就requests吧，我們首先嘗試向煎蛋（http://jiandan.n ...

如果說一個人夠無聊的話。。。

就會做一些十分美(wei)麗(suo)的事情啦哈哈哈。。。

好的，話不多說，進入正題。

正如標題所示，我們今天的目標很簡單：

代碼要少，妹子要好。

步驟如下：

1. 首先我們得確定需要用到的庫：

就requests吧，我們首先嘗試向煎蛋（http://jiandan.net/ooxx）發起get請求

（當然心裡希望不需要加頭部信息巴拉巴拉一堆東西。。。）

1 import request
2 url = 'http://jandan.net/ooxx'
3 r = request.get(url)
4 
5 print r.status_code,r.content

看見200我就很高興，輸出頁面也很正常

沒想到還一步到位了，不需要做任何多餘工作

（內心表示疑惑，煎蛋沒有防爬機制嗎？給面子！）

2. 接下來就要分析html：

其實目的就是img嘛，我發現結構很簡單，正則表達式這麼寫就行了：

1 pic_url = re.findall('<img src="//(.*?)" /></p>',r.content)

（可以print試試，發現並沒有多餘的圖片）

3. 接下來就是分析頁碼：

我發現頁碼也沒做什麼特別的處理，完全是url提交頁碼信息

於是只要寫一個迴圈滿足這個url就行了：

1 for i in range(1,231):
2     url = 'http://jandan.net/ooxx/page-'+str(i)+'#comments'

（一共230頁，應該是刪過了。。。）

4. 接著就把抓圖片url做一個函數，然後進行多線程處理即可：

　　完整代碼：

 1 #coding=utf-8
 2 import requests
 3 import re
 4 import thread
 5 import time
 6 
 7 def get_pic_url(url):
 8     r = requests.get(url)
 9 
10     pic_url = re.findall('<img src="//(.*?)" /></p>',r.content)
11 
12     for i in pic_url:
13         print i
14 
15 
16 def main():
17 
18     for i in range(1,231):
19 
20         url = 'http://jandan.net/ooxx/page-'+str(i)+'#comments'
21         thread.start_new_thread(get_pic_url,(url,))
22         time.sleep(0.1)
23         #一定要加上time.sleep()不然不能成功運行！！！！！！    
24 
25 if __name__ == '__main__':
26     main()

在thread處理多線程的時候，迴圈內一定要加上time.sleep()，不然會很慘，比如停止工作巴拉巴拉。。。

好啦，這樣我們就輕鬆獲得所有妹子圖片url，一共五千張不到，咱就不再urllib下載了，估計也有個幾個g

能這麼少代碼解決也是拖了煎蛋良好的給你爬機制的福，爽！20行代碼！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

【原創】-- C# 點滴積累 -- String

一、string.Format() 將【數字字元串】轉為兩位小數顯示的字元串： 1 dt = dtResult.Select(it => new CommodityPriceLimitEntity 2 { 3 CommodityId = it.CommodityId.ToString(), 4 Co ...
在C#中，如何連接已加密的Sqlite資料庫

對數據加密分兩種，一種是對資料庫本身進行加密，另一種是對數據表中的數據進行加密，如果SQLite資料庫加密，我這裡使用的一個管理工具叫SQLiteDeveloper，如下就可以加密資料庫，如果在工具中不提供密碼的情況下打開資料庫，會給你錯誤提示如下：，或者在C# 使用錯誤的密碼也會給你錯誤 ...
STGeomFromText 錯誤24200 指定的輸入不代表有效的地理實例的解決辦法

在地圖上畫一個多邊形保存的時候出現在執行用戶定義常式或聚合 "geography" 期間出現 .NET Framework 錯誤:System.ArgumentException: 24200: 指定的輸入不代表有效的地理實例的提示，找了很久沒有找到解決辦法，最後發現畫多邊形的時候換個方向開始畫 ...
IEnumerable & IEnumerator

IEnumerable 只有一個方法：IEnumerator GetEnumerator(). INumerable 是集合應該實現的一個介面，這樣，就能用 foreach 來遍歷這個集合。 IEnumerator 有Current屬性，MoveNext(), Reset()兩個方法。當 fore ...
寫給自己的Java程式員學習路線圖

如下是我做開發這幾年經常使用一些技術和工具，當然這些技術也都是需要加強的（有些是我一直使用的，不過不深入，有些內部的原理等等不是很清楚）前端部分： 1）HTML：網頁的核心語言，構成網頁的基礎 2）CSS：使網頁更加豐富多彩燦爛的利器 3）JavaScript：使網頁動起來的根本，加強了網頁和用戶 ...
Go語言學習筆記（六）net

加 Golang學習 QQ群共同學習進步成家立業工作 ^-^ 群號：96933959 net import "net" net包提供了可移植的網路I/O介面，包括TCP/IP、UDP、功能變數名稱解析和Unix域socket。雖然本包提供了對網路原語的訪問，大部分使用者只需要Dial、Listen和Acc ...
解決 lispbox macOS 不相容問題

誤打誤撞,解決了很重要的入門級問題,簡要記錄下. "lispbox" 官網末尾說目前暫不相容 10.4 以上系統: TODO: Compile on Mac OS X 10.4, for compatability Make separate versions for common Linux di ...
Effective Java通俗理解（持續更新）

這篇博客是Java經典書籍《Effective Java（第二版）》的讀書筆記，此書共有78條關於編寫高質量Java代碼的建議，我會試著逐一對其進行更為通俗易懂地講解，故此篇博客的更新大約會持續1個月左右。第1條：考慮用靜態工廠方法代替構造器通常情況下我們會利用類的構造器對其進行實例化，這似乎毫 ...