[爬蟲]1.1.2 網路爬蟲的工作原理

来源:https://www.cnblogs.com/yaoqian/archive/2023/07/24/17576604.html
-Advertisement-
Play Games

#### 前言 個人項目開發中,網站建設中需要用到大量的圖片以及用戶上傳的圖片,如果伺服器帶寬小,磁碟容量小將所有的圖片信息全部存儲在伺服器上不太現實,這裡建議將圖片數據存儲在對象存OSS上或者將圖片保存在圖床上,減少帶寬費用節約成本。 #### 項目環境 ``` SpringBoot:3.x JD ...


網路爬蟲(Web Crawler),也被稱為網頁蜘蛛(Spider),是一種用來自動瀏覽互聯網的網路機器人。其主要目標通常是為搜索引擎創建複製的網頁內容,但它們也可以被用於其他目的,比如數據挖掘。

現在,我們一起來深入理解一下網路爬蟲的工作原理。整個過程可以被大致分為四個步驟:

  1. 發送HTTP請求
  2. 從伺服器獲取響應
  3. 解析和處理HTML
  4. 提取鏈接並重覆以上步驟

1. HTTP請求

HTTP請求是爬蟲與網路伺服器進行交流的首要步驟。爬蟲通過發送HTTP請求,告訴伺服器它需要什麼信息。

HTTP請求主要有兩種類型:GET和POST。GET請求通常用於獲取信息,而POST請求則通常用於發送信息。

例如,當你在瀏覽器中輸入一個網址並按下回車鍵,你的瀏覽器就會向伺服器發送一個GET請求,請求伺服器發送該網頁的內容。

在Python中,我們可以使用requests庫來發送HTTP請求。以下是一個例子:

import requests

# 請求Python官網首頁
response = requests.get('https://www.python.org')

# 輸出伺服器返回的狀態碼
print(response.status_code)

在這個例子中,我們向Python官網首頁發送了一個GET請求,伺服器返回了一個狀態碼。如果狀態碼是200,那就表示請求成功。

2. 獲取響應

伺服器在接收到我們的HTTP請求後,會返回一個響應。響應中包含了我們請求的網頁的內容。

響應主要包含兩部分:響應頭和響應體。響應頭包含了一些元信息,如響應狀態碼、伺服器類型、日期等。響應體則是我們請求的實際內容,比如HTML代碼。

我們可以使用requests庫來獲取和處理響應。以下是一個例子:

import requests

# 請求Python官網首頁
response = requests.get('https://www.python.org')

# 輸出伺服器返回的HTML內容
print(response.text)

在這個例子中,我們向Python官網首頁發送了一個GET請求,並輸出了返回的HTML內容。

3. 解析和處理HTML

在獲取了HTML內容之後,下一步就是解析和處理HTML。HTML是一種標記語言,它的內容由一系列的標簽組成。我們可以通過解析HTML,提取出我們需要的信息。

在Python中,我們可以使用BeautifulSoup庫來解析HTML。以下是一個例子:

from bs4 import BeautifulSoup
import requests

# 請求Python官網首頁
response = requests.get('https://www.python.org')

# 創建BeautifulSoup對象,解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 找到第一個<h1>標簽,並輸出其內容
print(soup.h1.string)

在這個例子中,我們向Python官網首頁發送了一個GET請求,獲取HTML內容,並使用BeautifulSoup解析HTML,找到第一個<h1>標簽,並輸出其內容。

4. 提取鏈接,並重覆以上步驟

一旦我們提取了一個頁面上的所有需要的信息,就可以繼續爬取其他頁面了。我們可以通過提取當前頁面上的鏈接來找到其他頁面。

在Python中,我們可以使用BeautifulSoup庫來提取鏈接。以下是一個例子:

from bs4 import BeautifulSoup
import requests

# 請求Python官網首頁
response = requests.get('https://www.python.org')

# 創建BeautifulSoup對象,解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 找到所有的<a>標簽
a_tags = soup.find_all('a')

# 輸出每個<a>標簽的href屬性
for a in a_tags:
    print(a.get('href'))

在這個例子中,我們向Python官網首頁發送# 網路爬蟲的工作原理

網路爬蟲(Web Crawler),也被稱為網頁蜘蛛(Spider),是一種用來自動瀏覽互聯網的網路機器人。其主要目標通常是為搜索引擎創建複製的網頁內容,但它們也可以被用於其他目的,比如數據挖掘。
推薦閱讀:

https://mp.weixin.qq.com/s/dV2JzXfgjDdCmWRmE0glDA

https://mp.weixin.qq.com/s/an83QZOWXHqll3SGPYTL5g

file


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 容器安全是實施和管理像Docker這樣的容器技術的關鍵方面。它包括一組實踐、工具和技術,旨在保護容器化應用程式及其運行的基礎架構。在本節中,我們將討論一些關鍵的容器安全考慮因素、最佳實踐和建議。 ### **容器隔離** 隔離對於確保容器化環境的強大性和安全性至關重要。容器應該相互隔離,並與主機系統 ...
  • 一.pytesseract 1.簡介 Pytesseract是一個Python庫,用於將圖像中的文本轉換為可編輯的字元串。它是基於Google的Tesseract OCR引擎開發的 。Tesseract是一個開源的OCR引擎,能夠識別超過100種語言的文字。Pytesseract簡化了與Tesser ...
  • # Class類 ## **基本介紹** 1. Class也是類,因此也繼承Object類; 2. Class類對象不是new出來的,而是系統創建的; 3. 對於某個類的Class類對象,在記憶體中只有一份,因為類只載入一次; 4. 每個類的實例都會記得自己是由哪個Class實例所生成的; 5. 通過 ...
  • 有一位同事說使用 fastjson 進行 JSON 序列化存儲到資料庫後,發現 JSON 字元串“莫名其妙地”多了一些屬性!幫看了下代碼,看到基本類型的布爾類型以 is 開頭的屬性,再看到 fastjson ,就有點想笑。 ## 復現 定義 MyClass ``` public class MyCl ...
  • [TOC](【後端面經-Java】String與StringBuffer與StringBuilder的比較) ## 1. String 1. 不可變 查看`String`源碼如下: ```java public final class String implements java.io.Serial ...
  • golang的泛型已經出來了一年多了,從提案被接受開始我就在關註泛型了,如今不管是在生產環境還是開源項目里我都寫了不少泛型代碼,是時候全面得回顧下golang泛型的使用體驗了。 先說說結論,好用是好用,但問題也很多,有些問題比較影響使用體驗,到了不吐不快的地步了。 這篇文章不會教你泛型的基礎語法,並 ...
  • 最近在寫代碼時發現一個很有意思的問題 問題代碼: 1 // 1.準備一個集合,排序。 2 List<Movie> movies = new ArrayList<>(); 3 movies.add(new Movie("摔跤吧,爸爸", 9.5, "阿米爾汗")); 4 movies.add(new ...
  • 在Windows中, 將文件用滑鼠拖動到一個程式上面, 會有一句小提示: 用 xxx 打開(如下圖)。 它本質上就是運行程式時, 傳遞了一個文件路徑的命令行參數。 相當於這樣的命令: program.exe file_path 其中"program.exe"就是打開此文件用的程式, "file_pa ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...