python爬蟲_入門_翻頁_ZenDei技術網路在線

python爬蟲_入門_翻頁

-Advertisement-

寫出來的爬蟲，肯定不能只在一個頁面爬，只要要爬幾個頁面，甚至一個網站，這時候就需要用到翻頁了其實翻頁很簡單，還是這個頁面http://bbs.fengniao.com/forum/10384633.html，話說我得給這個人增加了多大的訪問量啊...... 10384633重點關註下這個數字，這個 ...

寫出來的爬蟲，肯定不能只在一個頁面爬，只要要爬幾個頁面，甚至一個網站，這時候就需要用到翻頁了

其實翻頁很簡單，還是這個頁面http://bbs.fengniao.com/forum/10384633.html，話說我得給這個人增加了多大的訪問量啊......

10384633重點關註下這個數字，這個就是頁面的名稱，現在嘗試把這個數字+/-1看看有沒有結果

驗證http://bbs.fengniao.com/forum/10384634.html

可以看到，這個頁面是可以訪問的

再試試http://bbs.fengniao.com/forum/10384632.html，這次不截圖了，可以自己去試試，也是可以訪問的

那麼接下來就好辦了，只要把這個數字每次+1或-1就可以了，甚至可以從http://bbs.fengniao.com/forum/1.html開始嘗試連接，一直+1，直到502或404斷開

下麵上代碼，還是用之前的內容，這次加了個頁面處理的函數

#!/usr/bin/python
# coding: UTF-8

import urllib
import urllib2
import re

#處理地址，並獲取頁面全部的圖片地址
def get_image_url(url):
  #url_format = urllib2.Request(url) #1
  url_open = urllib.urlopen(url) #2
  url_read = url_open.read() #3
  re_value = re.compile('(?<=src\=\").*?\.jpg')
  image_url_list = re.findall(re_value,url_read) #4
  return image_url_list

#這個函數專門用來下載，前面兩行是將圖片連接中/前面的內容全部刪除，留下後面的文件名用來保存文件的，try不說了，不清楚請翻回去看容錯
def down_image(image_url):
  rev = '^.*/'
  file_name = re.sub(rev,'',image_url)
  try:
    urllib.urlretrieve(image_url,file_name)
  except:
    print 'download %s fail' %image_url
  else:
    print 'download %s successed' %image_url

#這個函數用來處理頁面，每次+1
def get_page(url):
  url_num = re.search('(?<=\/)[0-9]+(?=\.)',url)
  url_num = url_num.group()
  url_num_1 = int(url_num) + 1
  url = url.replace(url_num,str(url_num_1))
  return url

if __name__ == '__main__':
  url = 'http://bbs.fengniao.com/forum/10384633.html'
  for n in range(1,10):
    url = get_page(url)
    image_url_list = get_image_url(url)
    for image_url in image_url_list:
      down_image(image_url) #5

其實可以給get_page傳兩個參數，一個是URL另一個是遞增的數值，就變成了get_page(url,n)，但是我沒有這麼寫，可以思考下為什麼，如果把for n in range(1,10)改成while True會怎樣？嘿嘿......回頭人家封你IP可別找我啊

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

web版仿微信聊天界面|h5仿微信電腦端案例開發

前幾天開發了一款手機端h5仿微信聊天，人唯有不停學習才能進步，這段時間倒騰著整理了下之前項目，又重新在原先的那版基礎上開發了一款仿微信聊天電腦端web版本，聊天頁面又重新優化了多圖預覽、視頻播放，右鍵菜單menu，聊天底部編輯器模塊重新優化源碼，彈窗則是繼續使用之前自己開發的wcPop.js，具體看 ...
position和BFC

一、關於position流定位：不能通過left/top屬性來進行定位（那用什麼定位），上下排列的元素縱向邊距會被合併，左右元素橫向邊距不會合併。浮動定位：脫離文本流，就好像不在父元素中，像是浮在父元素的上方。相對定位：相對自身位置定位，不會脫離文本流，相當於是個參照物，給子代元素作為參照。絕對定位 ...
用javascript編寫簡單銀行取錢存錢流程（函數）

1 const readline = require('readline-sync')//引用readline-sync 2 let arr = [['zhang', '123', 2000], ['yang', '123456', 3000]]; 3 //登陸 4 let add = functi... ...
前端基礎-CSS的各種選擇器的特點以及CSS的三大特性

一、基本選擇器二、後代選擇器、子元素選擇器三、兄弟選擇器四、交集選擇器與並集選擇器五、序列選擇器六、屬性選擇器七、偽類選擇器八、偽元素選擇器九、 CSS三大特性一、基本選擇器 1、id選擇器 <!DOCTYPE html> <html> <head> <meta ...
vue init深度定製團隊自己的Vue template

大家都知道，使用vue-cli可以快速的初始化一個基於Vue.js的項目，全局安裝腳手架之後，你可以通過vue list命令看到官方提供的5個模板 vue list 當開發一個獨立項目的時候，使用官方提供的template確實很方便，省去了繁瑣的依賴配置，webpack等配置問題，甚至連項目目錄結構 ...
zookeeper配置管理+集群管理實戰

引言之前就瞭解過kafka，看的似懂非懂，最近項目組中引入了 "kafka" ，剛好接著這個機會再次學習下。 Kafka在很多公司被用作分散式高性能消息隊列，kafka之前我只用過redis的list來做簡單的隊列處理，也還算好用，可能數據量比較小，也是單機運行，未出現過問題，用作輕量級消息隊列還 ...
Java開源生鮮電商平臺-通知模塊設計與架構(源碼可下載）

Java開源生鮮電商平臺-通知模塊設計與架構(源碼可下載）說明：對於一個生鮮的B2B平臺而言，通知對於我們實際的運營而言來講分為三種方式： 1. 消息推送：（採用極光推送） 2. 主頁彈窗通知。（比如：現在有什麼新的活動，有什麼新的優惠等等） 3. 簡訊通知.(對於簡訊通知，這個大家很熟悉，我們就 ...
Java原子類中CAS的底層實現

Java原子類中CAS的底層實現從Java到c++到彙編, 深入講解cas的底層原理. 介紹原理前, 先來一個Demo 以AtomicBoolean類為例.先來一個調用cas的demo. 主線程在for語句里cas忙迴圈, 直到cas操作成功返回true為止. 而新開的一個縣城new Thread ...