用Python玩爬蟲，首先得有一個流程，這個流程最適合小白用！

-Advertisement-

爬蟲基本流程發起請求通過HTTP庫向目標伺服器發送Request，Request內可以包含額外的headers信息。獲取響應內容如果伺服器正常響應，會返回Response，裡面包含的就是該頁面的內容。解析數據內容或許是HTML，可以用正則表達式、網頁解析庫進行解析。或許是Json，可 ...

爬蟲基本流程

發起請求

通過HTTP庫向目標伺服器發送Request，Request內可以包含額外的headers信息。
獲取響應內容

如果伺服器正常響應，會返回Response，裡面包含的就是該頁面的內容。
解析數據

內容或許是HTML，可以用正則表達式、網頁解析庫進行解析。

或許是Json，可以直接轉換為Json對象解析。
保存數據

可以存儲為文本，也可以保存至資料庫，或其他特定類型文件。

用Python玩爬蟲，首先得有一個流程，這個流程最適合小白用！

Response中包含的內容

響應狀態

Status Code:200

即狀態碼，一般200表示響應成功。
響應頭

Response Headers

內容類型，內容長度，伺服器信息，設置Cookie等。
響應體

請求資源的內容，如網頁源代碼，二進位數據等。

用Python玩爬蟲，首先得有一個流程，這個流程最適合小白用！

一般做網頁請求的時候，可以先判斷狀態碼是否是200，再取出響應體進行解析。

解析方式

直接處理
Json解析
正則表達式
BeautifulSoup
PyQuery
XPath

視情況選擇合適的解析方式。

保存數據

文本保存

純文本、Json、Xml等。
關係型資料庫保存

MySQL、Oracle、SQLServer等。
非關係型資料庫保存

MongoDB、Redis等Key-Value形式存儲。
二進位文件

圖片、視頻、音頻等特定文件。

Urllib庫

Python內置的HTTP請求庫

模塊	說明
urllib.request	請求模塊
urllib.error	異常處理模塊
urllib.parse	url解析模塊
urllib.robotparser	robots.txt解析模塊

用Python玩爬蟲，首先得有一個流程，這個流程最適合小白用！

歡迎大家關註我的博客：https://home.cnblogs.com/u/Python1234/

歡迎加入千人交流學習群：125240963

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Java描述數據結構之鏈表的增刪改查

鏈表是一種常見的基礎數據結構，它是一種線性表，但在記憶體中它並不是順序存儲的，它是以鏈式進行存儲的，每一個節點里存放的是下一個節點的“指針”。在Java中的數據分為引用數據類型和基礎數據類型，在Java中不存在指針的概念，但是對於鏈表而言的指針，指的就是引用數據類型的地址。鏈表和數組都是線性的數據結 ...
Python入門-用戶登錄程式升級版

編寫登陸介面基礎需求：讓用戶輸入用戶名密碼認證成功後顯示歡迎信息輸錯三次後退出程式升級需求：可以支持多個用戶登錄 (提示，通過列表存多個賬戶信息) 用戶3次認證失敗後，退出程式，再次啟動程式嘗試登錄時，還是鎖定狀態（提示:需把用戶鎖定的狀態存到文件里）註：需要先創建一個lock_fil ...
Python爬蟲案例：利用Python爬取笑話網

學校的伺服器可以上外網了，所以打算寫一個自動爬取笑話併發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div class="list_title">裡面，用正則表達式可以把最近的幾個笑話地址找出來，再進到一個笑話頁面看下：每一個笑話頁 ...
此篇文章獻給還處於Python零基礎的小白們！保證你能入門不是問題

更多案例請關註我的博客：home.cnblogs.com/u/Python1234 歡迎大家加入千人交流資源共用群：125240963 表示什麼都沒有如果函數沒有返回值，可以返回 None 用來占位表示什麼都沒有如果函數沒有返回值，可以返回 None 用來占位三、內置數據結構 list se ...
Errors occurred during the build. Errors running builder 'DeploymentBuilder' on project...解決方法

第一步刪除工作空間的/.metadata/.plugins/org.eclipse.core.runtime/.settings/com.genuitec.eclipse.ast.deploy.core.prefs文件第二步取消項目自動部署項目-->右鍵Properties-->Builde ...
怎樣用Eclipse將Java源代碼生成可執行文件[轉]

eclipse將java源代碼生成jar可執行文件用eclipse做了一個web項目的自動化測試，自己用的時候倒是很方便，打開eclipse直接運行即可，但是分享給其他小伙伴用的時候就不太方便，希望可以生成一個可執行的文件，別人使用時，直接運行就可以。實際操作了一下，記錄下步驟。 1.文件一定要有 ...
Java生成訂單號/交易流水號

分析：既然是訂單號/交易流水號，首先是不能重覆，其次需考慮到性能問題。設計如下： "HF"+時間戳+隨機數+迴圈數代碼如下：其中：RandomUtils類 1 package com.test.common.util; 2 3 import org.apache.commons.lang.Ra ...
Python web簡約表白網頁源碼分享，時光不老，我們不散！

演示站：c.lmz8.cn打開js/4.js，複製到工具箱的js代碼整理那，先解密，方便查看。工具箱：tool.lmz8.cnjs代碼整理、線上解碼這個便是文字，只不過唄轉碼了，所以要用到解碼工具。內容更改：index.html(裡面的網址改了，否則會跳轉到我的網站)js/4.js（網址、照片、音 ...