python爬蟲_入門_翻頁

来源:https://www.cnblogs.com/xiu123/archive/2018/05/27/9094956.html
-Advertisement-
Play Games

寫出來的爬蟲,肯定不能只在一個頁面爬,只要要爬幾個頁面,甚至一個網站,這時候就需要用到翻頁了 其實翻頁很簡單,還是這個頁面http://bbs.fengniao.com/forum/10384633.html,話說我得給這個人增加了多大的訪問量啊...... 10384633重點關註下這個數字,這個 ...


寫出來的爬蟲,肯定不能只在一個頁面爬,只要要爬幾個頁面,甚至一個網站,這時候就需要用到翻頁了

其實翻頁很簡單,還是這個頁面http://bbs.fengniao.com/forum/10384633.html,話說我得給這個人增加了多大的訪問量啊......

10384633重點關註下這個數字,這個就是頁面的名稱,現在嘗試把這個數字+/-1看看有沒有結果

驗證http://bbs.fengniao.com/forum/10384634.html

可以看到,這個頁面是可以訪問的

再試試http://bbs.fengniao.com/forum/10384632.html,這次不截圖了,可以自己去試試,也是可以訪問的

那麼接下來就好辦了,只要把這個數字每次+1或-1就可以了,甚至可以從http://bbs.fengniao.com/forum/1.html開始嘗試連接,一直+1,直到502或404斷開

下麵上代碼,還是用之前的內容,這次加了個頁面處理的函數

#!/usr/bin/python
# coding: UTF-8

import urllib
import urllib2
import re

#處理地址,並獲取頁面全部的圖片地址
def get_image_url(url):
  #url_format = urllib2.Request(url) #1
  url_open = urllib.urlopen(url) #2
  url_read = url_open.read() #3
  re_value = re.compile('(?<=src\=\").*?\.jpg')
  image_url_list = re.findall(re_value,url_read) #4
  return image_url_list

#這個函數專門用來下載,前面兩行是將圖片連接中/前面的內容全部刪除,留下後面的文件名用來保存文件的,try不說了,不清楚請翻回去看容錯
def down_image(image_url):
  rev = '^.*/'
  file_name = re.sub(rev,'',image_url)
  try:
    urllib.urlretrieve(image_url,file_name)
  except:
    print 'download %s fail' %image_url
  else:
    print 'download %s successed' %image_url

#這個函數用來處理頁面,每次+1
def get_page(url):
  url_num = re.search('(?<=\/)[0-9]+(?=\.)',url)
  url_num = url_num.group()
  url_num_1 = int(url_num) + 1
  url = url.replace(url_num,str(url_num_1))
  return url

if __name__ == '__main__':
  url = 'http://bbs.fengniao.com/forum/10384633.html'
  for n in range(1,10):
    url = get_page(url)
    image_url_list = get_image_url(url)
    for image_url in image_url_list:
      down_image(image_url) #5

其實可以給get_page傳兩個參數,一個是URL另一個是遞增的數值,就變成了get_page(url,n),但是我沒有這麼寫,可以思考下為什麼,如果把for n in range(1,10)改成while True會怎樣?嘿嘿......回頭人家封你IP可別找我啊


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前幾天開發了一款手機端h5仿微信聊天,人唯有不停學習才能進步,這段時間倒騰著整理了下之前項目,又重新在原先的那版基礎上開發了一款仿微信聊天電腦端web版本,聊天頁面又重新優化了多圖預覽、視頻播放,右鍵菜單menu,聊天底部編輯器模塊重新優化源碼,彈窗則是繼續使用之前自己開發的wcPop.js,具體看 ...
  • 一、關於position流定位:不能通過left/top屬性來進行定位(那用什麼定位),上下排列的元素縱向邊距會被合併,左右元素橫向邊距不會合併。浮動定位:脫離文本流,就好像不在父元素中,像是浮在父元素的上方。相對定位:相對自身位置定位,不會脫離文本流,相當於是個參照物,給子代元素作為參照。絕對定位 ...
  • 1 const readline = require('readline-sync')//引用readline-sync 2 let arr = [['zhang', '123', 2000], ['yang', '123456', 3000]]; 3 //登陸 4 let add = functi... ...
  • 一、 基本選擇器 二、 後代選擇器、子元素選擇器 三、 兄弟選擇器 四、 交集選擇器與並集選擇器 五、 序列選擇器 六、 屬性選擇器 七、 偽類選擇器 八、 偽元素選擇器 九、 CSS三大特性 一、 基本選擇器 1、id選擇器 <!DOCTYPE html> <html> <head> <meta ...
  • 大家都知道,使用vue-cli可以快速的初始化一個基於Vue.js的項目,全局安裝腳手架之後,你可以通過vue list命令看到官方提供的5個模板 vue list 當開發一個獨立項目的時候,使用官方提供的template確實很方便,省去了繁瑣的依賴配置,webpack等配置問題,甚至連項目目錄結構 ...
  • 引言 之前就瞭解過kafka,看的似懂非懂,最近項目組中引入了 "kafka" ,剛好接著這個機會再次學習下。 Kafka在很多公司被用作分散式高性能消息隊列,kafka之前我只用過redis的list來做簡單的隊列處理,也還算好用,可能數據量比較小,也是單機運行,未出現過問題,用作輕量級消息隊列還 ...
  • Java開源生鮮電商平臺-通知模塊設計與架構(源碼可下載) 說明:對於一個生鮮的B2B平臺而言,通知對於我們實際的運營而言來講分為三種方式: 1. 消息推送:(採用極光推送) 2. 主頁彈窗通知。(比如:現在有什麼新的活動,有什麼新的優惠等等) 3. 簡訊通知.(對於簡訊通知,這個大家很熟悉,我們就 ...
  • Java原子類中CAS的底層實現 從Java到c++到彙編, 深入講解cas的底層原理. 介紹原理前, 先來一個Demo 以AtomicBoolean類為例.先來一個調用cas的demo. 主線程在for語句里cas忙迴圈, 直到cas操作成功返回true為止. 而新開的一個縣城new Thread ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...