python爬蟲_入門

来源:https://www.cnblogs.com/xiu123/archive/2018/02/24/8463931.html
-Advertisement-
Play Games

本來覺得沒什麼可寫的,因為網上這玩意一搜一大把,不過爬蟲畢竟是python的一個大亮點,不說說感覺對不起這玩意基礎點來說,python2寫爬蟲重點需要兩個模塊,urllib和urllib2,其實還有re先介紹下模塊的一些常用功能urllib.urlopen('http://xxx.xxx.xxx') ...


本來覺得沒什麼可寫的,因為網上這玩意一搜一大把,不過爬蟲畢竟是python的一個大亮點,不說說感覺對不起這玩意
基礎點來說,python2寫爬蟲重點需要兩個模塊,urllib和urllib2,其實還有re
先介紹下模塊的一些常用功能
urllib.urlopen('http://xxx.xxx.xxx') #打開一個網址,只是打開,和open差不多
urllib2.Request(url) #解析網址,這個可以省略,具體不是很懂,一些功能,比如加head頭什麼的也需要使用這個
urllib.urlretrieve(url,filename) #下載用,把url提供的東西down下來,並用filename保存
舉個蜂鳥爬圖片的例子,下麵上偽代碼:

1、url解析
2、打開url
3、讀取url,就是read()
4、使用re.findall找到所有和圖片有關係的地址,這裡只jpg
5、迴圈下載

看圖上,圖片鏈接格式是src="http://index_url/page_num/image_name.jpg?XXXXXXX",那麼如果需要下載的話一定是需要紅圈部分,也就是http://index_url/page_num/image_name.jpg
分析之後後面的事就好辦了,下麵上代碼

import urllib
import urllib2
import re

#處理地址,並獲取頁面全部的圖片地址
def get_image_url(url):
  #url_format = urllib2.Request(url) #1
  url_open = urllib.urlopen(url) #2
  url_read = url_open.read() #3
  re_value = re.compile('(?<=src\=\").*?\.jpg')
  image_url_list = re.findall(re_value,url_read) #4
  return image_url_list

#這個函數專門用來下載,前面兩行是將圖片連接中/前面的內容全部刪除,留下後面的文件名用來保存文件的,try不說了,不清楚請翻回去看容錯
def down_image(image_url):
  rev = '^.*/'
  file_name = re.sub(rev,'',image_url)
  try:
    urllib.urlretrieve(image_url,file_name)
  except:
    print 'download %s fail' %image_url
  else:
    print 'download %s successed' %image_url

if __name__ == '__main__':
  url = 'http://bbs.fengniao.com/forum/10384633.html'
  image_url_list = get_image_url(url)
  for image_url in image_url_list:
    down_image(image_url) #5

困死,睡覺去。。。。。有時間再說說翻頁什麼的,就能爬網站了

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在 export defaul new Router({ )} 這個路由配置中一定要加mode : ‘history’ 否者就會在路由前面預設添加# 路由跳轉的幾種方式: ...
  • ES6 模塊的設計思想,是儘量的靜態化,使得編譯時就能確定模塊的依賴關係,以及輸入和輸出的變數。 ES6 模塊不是對象,而是通過export命令顯式指定輸出的代碼,再通過import命令輸入。 需要特別註意的是,export命令規定的是對外的介面,必須與模塊內部的變數建立一一對應關係。 export ...
  • ⚠️組件的作用域是孤立的,vue解決組件傳值問題是通過props ⚠️子傳父的時候需要vm.$emit觸發實例上的事件,頁面需要定一個方法去取值 ⚠️一定要註意命名方式和書寫,例如mylChart和myl-chart dataRadio和data-radio :objline和@data-radio ...
  • 之前的文章大量的內容在和大家探討分散式存儲,接下來的章節進入了分散式計算領域。坦白說,個人之前專業的重心側重於存儲,對許多計算的內容理解可能不是和確切,如果文章中的理解有所不妥,願虛心賜教。本篇將和大家聊一聊分散式計算的一個子集: 批處理 。 批處理系統通常也叫離線系統 ,需要大量的輸入數據,運行一 ...
  • Related Links:Zuul https://github.com/Netflix/zuulCAT https://github.com/dianping/catApollo https://github.com/ctripcorp/apolloKairosDB https://github... ...
  • 前面我們曾有篇文章中提到過關於用tensorflow訓練手寫28 28像素點的數字的識別,在那篇文章中我們把手寫數字圖像直接碾壓成了一個784列的數據進行識別,但實際上,這個圖像是28 28長寬結構的,我們這次使用CNN捲積神經網路來進行識別。 捲積神經網路我的理解是部分模仿了人眼的功能。 我們在看 ...
  • 在Java5.0之前,協調對共用對象的訪問可以使用的機制只有synchronized和volatile。我們知道synchronized關鍵字實現了內置鎖,而volatile關鍵字保證了多線程的記憶體可見性。在大多數情況下,這些機制都能很好地完成工作,但卻無法實現一些更高級的功能,例如,無法中斷一個正 ...
  • 目錄: Python之路第一篇——認識Python ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...