python爬蟲基本概述

-Advertisement-

python爬蟲基本概述一、爬蟲是什麼網路爬蟲（Crawler）又稱網路蜘蛛，或者網路機器人（Robots）. 它是一種按照一定的規則，自動地抓取萬維網信息的程式或者腳本。換句話來說，它可以根據網頁的鏈接地址自動獲取網頁內容。如果把互聯網比做一個大蜘蛛網，它裡面有許許多多的網頁，網路蜘蛛可以 ...

python爬蟲基本概述

一、爬蟲是什麼

網路爬蟲（Crawler）又稱網路蜘蛛，或者網路機器人（Robots）. 它是一種按照一定的規則，自動地抓取萬維網信息的程式或者腳本。換句話來說，它可以根據網頁的鏈接地址自動獲取網頁內容。如果把互聯網比做一個大蜘蛛網，它裡面有許許多多的網頁，網路蜘蛛可以獲取所有網頁的內容。

爬蟲是一個模擬人類請求網站行為, 並批量下載網站資源的一種程式或自動化腳本。

二、爬蟲可以做什麼

1. 搜索引擎

2. 採集金融數據

3. 採集商品數據

4. 採集競爭對手的客戶數據

5. 採集行業相關數據，進行數據分析

6. 刷流量

三、爬蟲的分類

1、通用網路爬蟲又稱為全網爬蟲，其爬取對象由一批 URL 擴充至整個 Web，主要由搜索引擎或大型 Web 服務商使用。

2、聚焦網路爬蟲又稱為主題網路爬蟲，其特點是只選擇性的地爬取與預設的主題相關的頁面，相比通用網絡爬蟲，聚焦網路爬蟲僅需要爬取與主題相關的頁面，極大地節省硬體及網路資源，能更快的更新保存頁面，更好的滿足特定人群對特定領域的需求。

3、增量網路爬蟲只對已下載的網頁採取增量式更新，或只爬取新產生的及已經發生變化的網頁，這種機制能夠在某種程度上保證所爬取的網頁儘可能的新。

4、深度網路爬蟲 Web 頁面按照存在的方式可以分為表層頁面和深層頁面兩類。表層頁面是只傳統搜索引擎可以索引到的頁面，以超鏈接可以達到的靜態頁面為主。深層頁面是指大部分內容無法通過靜態鏈接獲取，隱藏在搜索表單之後的，需要用戶提交關鍵詞後才能獲得的 Web 頁面，如一些登陸後可見的網頁。

四、爬蟲的基本流程

1、瀏覽網頁的流程

2 、爬蟲的基本流程

1. 請求網頁通過 HTTP 庫向目標站點發起請求，即發送一個 Request，請求可以包含額外的 headers 等信息，等待伺服器響應!

2. 獲得相應內容如果伺服器能正常響應，會得到一個 Response，Response 的內容便是所要獲取的頁面內容，類型可能有 HTML，Json 字元串，二進位數據（如圖片視頻）等類型。

3. 解析內容得到的內容可能是 HTML，可以用正則表達式、網頁解析庫進行解析。可能是Json，可以直接轉為 Json 對象解析，可能是二進位數據，可以做保存或者進一步的處理。

4. 存儲解析的數據保存形式多樣，可以存為文本，也可以保存至資料庫，或者保存特定格式的文件

3 、爬蟲的測試案例

爬取搜狗首頁的頁面數據

# 導包
import requests
# step_1 : 指定url
url ='https://www.sogou.com/'
# step_2 : 發起請求:
# 使用get 方法發起get 請求， 該方法會返回一個響應對象。參數url 表示請求對應的url
response = requests.get ( url = url )
# step_3 : 獲取響應數據:
# 通過調用響應對象的text 屬性， 返迴響應對象中存儲的字元串形式的響應數據（ 頁面源碼數據）
page_text = response . text
# step_4 : 持久化存儲
with open ('sogou.html','w',encoding ='utf -8') as fp:
    fp.write (page_text)
print ('爬取數據完畢！ ！ ！')

得到sogou.html

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Gateway

JavaScript02 8.JavaScript函數 JavaScript函數介紹函數是由事件驅動的，或者當它被調用時，執行的可重覆使用的代碼例子 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>函數快 ...
FPGA實現64點IFFT(VHDL)

phpt測試文件說明 phpt文件用於PHP的自動化測試，這是PHP用自己來測試自己的測試數據用例文件。測試腳本通過執行PHP源碼根目錄下的run-tests.php，讀取phpt文件執行測試。 phpt文件包含 TEST，FILE，EXPECT 等多個段落的文件。在各個段落中，TEST、FILE ...
學習筆記——美多商城——1 美多商城項目準備

2022-10-23 步驟：一、創建工程倉庫（1）在“碼雲”上創建一個倉庫，在本地盤符中創建一個文件夾，右擊，使用git，將遠程倉庫的內容克隆到本地倉庫中，點擊“Git Bash Here”。將剛剛創建的遠程倉庫克隆，使用的命令是“git clone 剛剛遠程倉庫的地址（點擊（克隆/下載）按鈕會 ...
git的介紹和使用

git介紹什麼是git git是一種版本控制器 - 控制的對象是開發的項目代碼什麼是版本控制器完成協同開發項目，幫助程式員整合代碼 i）幫助開發者合併開發的代碼 ii）如果出現衝突代碼的合併，會提示後提交合併代碼的開發者，讓其解決衝突軟體：SVN 、 GIT（都是同一個人的個人項目） g ...
數據結構基礎—數組和廣義表

數據結構基礎—數組和廣義表一、數組 1.數據的定義數組類似於線性表，就是多維結構的順序表， 2.稀疏數組 a.稀疏數組的定義：假設m行n列的矩陣中含有t個非零元素若t/(m*n) <= 0.05，則稱該矩陣為稀疏矩陣稀疏矩陣也分為特殊矩陣和隨機矩陣隨機特殊矩陣：三角，對角... 隨機矩陣： ...
淺談PHP設計模式的策略模式

簡介：策略模式又叫做政策模式，用於如何組織和調用演算法的，是屬於行為型模式的一種。策略模式需要三個角色構成： Context 封裝角色：也叫做上下文角色，起承上啟下封裝作用，屏蔽高層模塊對策略、演算法的直接訪問，封裝可能存在的變化。 Strategy 抽象策略角色：通常為介面，指定規則。 Concr ...
驅動開發：內核層InlineHook掛鉤函數

內核中的`InlineHook`函數掛鉤技術其實與應用層完全一致，都是使用劫持執行流並跳轉到我們自己的函數上來做處理，唯一的不同只有一個內核`Hook`只針對內核API函數，雖然只針對內核API函數實現掛鉤但由於其身處在最底層所以一旦被掛鉤其整個應用層都將會受到影響，這就直接決定了在內核層掛鉤的效果... ...
談談程式員 35 歲危機，太真實了……

作者：農民工老王來源：blog.csdn.net/monarch91/article/details/122709576 我是一個非科班出身的程式員，大學本科時的專業和編程無關，畢業後做了幾年事業單位後，才中途轉行做了軟體開發。我一入行就聽說了35歲危機：程式員到了35歲後，如果沒有進入管理層， ...