Python爬蟲基本原理_ZenDei技術網路在線

Python爬蟲基本原理

-Advertisement-

爬蟲基本原理 1. 什麼是爬蟲請求網站並提取數據的自動化程式。 2. 爬蟲基本流程發起請求通過HTTP庫向目標站點發起請求，即發送一個Request，請求可以包含額外的headers等信息，等待伺服器響應。獲取響應如果伺服器能正常響應，會得到一個Response，Response ...

爬蟲基本原理

1. 什麼是爬蟲

請求網站並提取數據的自動化程式。

2. 爬蟲基本流程

發起請求

通過HTTP庫向目標站點發起請求，即發送一個Request，請求可以包含額外的headers等信息，等待伺服器響應。
獲取響應

如果伺服器能正常響應，會得到一個Response，Response的內容便是所要獲取的頁面內容，類型可能有HTML，Json字元串，二進位數據（如圖片視頻）等類型。
解析內容

得到的內容可能是HTML，可以用正則表達式、網頁解析庫進行解析。可能是Json，可以直接轉為Json對象解析，可能是二進位數據，可以做保存或者進一步處理。
保存數據

保存形式多樣，可以存為文本，也可以保存至資料庫，或者保存特定格式的文件。

3. 什麼是Request和Response

這裡寫圖片描述

4. Request中包含什麼

請求方式

主要有GET、POST兩種類型，另外還有HEAD、PUT、DELETE、OPTIONS等。

GET：請求的參數全都包含在請求的網址中。直接輸入鏈接即可訪問。
POST：與GET不同，請求的信息封裝了，包含在Formdata中。需要構造表單，然後點擊提交。

請求URl

URL全稱統一資源定位符，入一個網頁文檔、一張圖片、一個視頻等都可以用URL唯一來確定。

請求頭Headers

包含請求時的頭部文件，包含了很重要配置信息，如User_Agent、Host、Cookies等信息。

請求體

請求時額外攜帶的數據，如表單提交時的表單數據。一般GET請求無需請求體，POST請求則需要請求體。

5. Response中包含什麼

響應狀態status_code

有多種響應狀態，如200代表成功、301跳轉、404找不到頁面、502伺服器錯誤。

響應頭headers

如內容類型、內容長度、伺服器信息、設置Cookie等等。鍵值對的形式。

響應體

最主要的部分，包含了請求資源的內容，如網頁HTML，圖片二進位數據等。

6. 能抓怎樣的數據

網頁文本

如HTML文檔、Json格式文本等。

圖片

獲取到的是二進位文件、保存為圖片格式。

python //example 保存了一個圖片 import requests response = requests.get('https://www.baidu.com/img/baidu_jgylogo3.gif') print(response.content) with open('C:/Users/Administrator/Desktop/1.gif', 'wb') as f: f.write(response.content)

視頻

同為二進位文件，保存為視頻格式即可。

其它

7. 怎樣進行網頁的解析

解析方式

直接處理
Json解析（Ajax）
正則表達式
BeautifulSoap
PyQuery
XPath

為什麼抓到的和瀏覽器看到的不一樣

因為抓到的結果裡面有很多js文件，裡面包含的網頁中內容的請求。瀏覽器則是把所有js載入完畢後才顯示出來的。

8. 怎樣解決JavaScript渲染的問題

分析Ajax請求
Selenium/WebDriver （模擬渲染）
Splash（同上）
PyV8、Ghost.py

9. 怎樣保存數據

文本

純文本、Json、Xml等

關係型資料庫

如MySQL、Oracle、SQL Server等具有結構化表結構形式存儲。

非關係型資料庫

如MongoDB、Redis等Key_Value形式存儲。

二進位文件

如圖片、視頻、音頻等等直接保存成特定格式即可。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

許可權控制的解決方式(科普向)

目錄 1 許可權控制是什麼 1.1 ACL 1.2 RBAC 1.2.1 名詞術語 1.2.2 RBAC定義 1.2.3 RBAC分類 1.2.3.1 RBAC0 1.2.3.2 RBAC1 1.2.3.3 RBAC2 1.2.4 RBAC 介面 2 垂直許可權（功能許可權） 3 水平許可權（數據許可權） 4 ...
23.C++- 繼承的多種方式、顯示調用父類構造函數、父子之間的同名函數、virtual虛函數

上章鏈接: 22.C++- 繼承與組合,protected訪問級別繼承方式繼承方式位於定義子類的”:”後面,比如: 繼承方式預設為private 在C++中,繼承方式共有3種: public繼承 -指父類的成員(變數和函數)訪問級別,在子類中保持不變 private繼承 -指父類的成員,在子類中 ...
OO第一次博客作業總結反思

使用了masteruml插件來生成類圖和metrics插件分析代碼第一次作業 1、UML類圖 >在第一次作業中，使用了兩個類,代碼中有沒有使用的變數與函數，為平衡兩個類的內容，我將輸出函數放在了多項式類中，但是仍然不夠平衡。 2、量化分析： >處理字元串輸入的過程，按照面向過程的思路來寫，嵌套的判 ...
設計模式漫談之橋接模式

今天調休了，閑來無事，再扯一個設計模式。我不是單純的說設計模式，更多的是說編程思想上的東西。人心隔肚皮，人眼看到的不一定是真相，所以說女孩結婚後流的淚是當初眼拙腦殘的結果。不過愛情中沒有對錯，愛情本來就是折磨死人不犯法。說說繼承與組合，繼承偏重於對象本身具有；組合偏重於包括其他對象的東西（靜的，動 ...
BZOJ 3524: [POI2014]KUR-Couriers

[POI2014]KUR-Couriers 題目描述 Byteasar works for the BAJ company, which sells computer games. The BAJ company cooperates with many courier companies that ...
python3 第三十一章 - 模塊

1、什麼是模塊如果從Python解釋器退出並再次輸入，您所做的定義（函數和變數）將丟失。因此，如果要編寫一個稍長的程式，最好使用文本編輯器為解釋器準備輸入，並以該文件作為輸入運行它。這稱為創建腳本。隨著你的程式越來越長，你可能想把它分成幾個文件，以方便維護。你可能還想使用一個你在幾個程式中編寫的方 ...
Spring框架入門

Spring框架一、什麼是Spring Spring框架是由於軟體開發的複雜性而創建的。Spring使用的是基本的JavaBean來完成以前只可能由EJB完成的事情。然而，Spring的用途不僅僅限於伺服器端的開發。從簡單性、可測試性和松耦合性角度而言，絕大部分Java應用都可以從Spring中受 ...
不管人生怎麼走，都需要實時回頭看看

魯迅爺爺說：世間本沒有路，走的人多了就有了路！ Write to header! 首先，很無奈的以這樣一種拙劣甚至粗俗的方式開始我的第一篇博客的開頭！其實不管做任何事兒，開頭都是很艱難的！一直以來，不管是二十年前自記事起，還是初次步入社會，第一次戀愛，甚至是現在已經在這個繁雜的社會摸爬滾打這麼些年， ...