爬蟲介紹

来源:https://www.cnblogs.com/xbhog/archive/2019/10/19/11705160.html
-Advertisement-
Play Games

前言:該系列為爬蟲基礎,適合沒有接觸過python或剛剛起步的同學,如有錯誤,歡迎指出。 --爬蟲的定義: 通過編寫程式,模擬瀏覽器行為瀏覽網頁,獲取互聯網上的數據,也稱為蜘蛛,如:百度;谷歌,都是爬蟲。 註意: 爬蟲是python的一個分支或者說方向,個人自學python(爬蟲)兩年,從0-1,一 ...


前言:該系列為爬蟲基礎,適合沒有接觸過python或剛剛起步的同學,如有錯誤,歡迎指出。


--爬蟲的定義:

通過編寫程式,模擬瀏覽器行為瀏覽網頁,獲取互聯網上的數據,也稱為蜘蛛,如:百度;谷歌,都是爬蟲。

註意:

  • 爬蟲是python的一個分支或者說方向,個人自學python(爬蟲)兩年,從0-1,一步一步走來,明白其中的辛苦,若你沒有大毅力,就不要自學了;給初學者的建議:第一語言不要學習python,(個人見解,不喜勿噴)。

--爬蟲的分類:

  1. 通用爬蟲:獲取的只是一個url(網址)下的頁面數據;

  2. 聚焦爬蟲:根據指定的需求獲取頁面中指定的局部數據;

  3. 增量式爬蟲:用來監測網站數據更新的情況。

--概念混淆:

  • 反爬機制:網站可以採用相關的技術手段或者策略阻止爬蟲對網站的數據獲取(代碼報錯)。

  • 反反爬策略:讓爬蟲程式偽裝(破解)網站限制並獲得數據。

--robots協議:君子協議,裡面限制了哪些可爬,哪些不可爬,但是你可以不用遵守。

--爬蟲流程的概括:

  1. 獲取網頁源碼 ===》urllib、requests

  2. 提取所需要的業務數據 ==》BeautifulSoup、xpath、css選擇器、pyquery

  3. 保存數據 ===》 json、csv、txt(文件存儲)等;

  4. 自動化程式

--URL(統一資源定位符,俗稱網址)

  • URL的全稱感興趣的可以瞭解一下,我們主要解釋一下它是做什麼的,我們每天網上衝浪,百度瞭解一下,我們在瀏覽器的輸入框=》www.baidu.com 這就是url。

  • 如:https://github.com/favicon.ico,我們用URL來唯一指定它的訪問方式,這其中包括了訪問協議https、訪問路徑和資源名稱,通過這樣的鏈接,我們便可以從互聯網上找到資源,這就是url.

--超文本(HTML)

  • 你打開一個網址如:www.baidu.com;你所看見的頁面正是通過html以及其他的語言渲染出來的,我們右擊->查看網頁源代碼;或者按F12你會發現有代碼出現,裡面就包括HTML代碼。

--HTTP/HTTPS協議介紹

  • 概念:HTTP協議就是伺服器端(網站的伺服器)與客戶端(自己的電腦)之間進行數據交互的一種方式。

  • HTTP工作原理:HTTP協議工作在客戶端-服務端交媾之上的;瀏覽器作為HTTP客戶端通過URL向HTTP服務端即WEB伺服器發送所有請求;Web伺服器根據接收到的請求後,向客戶端發送響應信息。

    1. 常見的請求頭信息:

      accept:瀏覽器通過這個頭告訴伺服器,它所支持的數據類型Accept-Charset: 瀏覽器通過這個頭告訴伺服器,它支持哪種字元集
      Accept-Encoding:瀏覽器通過這個頭告訴伺服器,支持的壓縮格式
      Accept-Language:瀏覽器通過這個頭告訴伺服器,它的語言環境
      Host:瀏覽器通過這個頭告訴伺服器,想訪問哪台主機
      If-Modified-Since: 瀏覽器通過這個頭告訴伺服器,緩存數據的時間
      Referer:瀏覽器通過這個頭告訴伺服器,客戶機是哪個頁面來的 防盜鏈
      Connection:瀏覽器通過這個頭告訴伺服器,請求完後是斷開鏈接還是何持鏈接
      X-Requested-With: XMLHttpRequest 代表通過ajax方式進行訪問
      User-Agent:請求載體的身份標識
    2. 常見的響應頭信息:

      Location: 伺服器通過這個頭,來告訴瀏覽器跳到哪裡
      Server:伺服器通過這個頭,告訴瀏覽器伺服器的型號
      Content-Encoding:伺服器通過這個頭,告訴瀏覽器,數據的壓縮格式
      Content-Length: 伺服器通過這個頭,告訴瀏覽器回送數據的長度
      Content-Language: 伺服器通過這個頭,告訴瀏覽器語言環境
      Content-Type:伺服器通過這個頭,告訴瀏覽器回送數據的類型
      Refresh:伺服器通過這個頭,告訴瀏覽器定時刷新
      Content-Disposition: 伺服器通過這個頭,告訴瀏覽器以下載方式打數據
      Transfer-Encoding:伺服器通過這個頭,告訴瀏覽器數據是以分塊方式回送的
      Expires: -1 控制瀏覽器不要緩存
  • 關於怎麼查看請求頭信息/響應頭信息,我會在後面出專門的文章來解惑。

  • 關於HTTPS協議定義:HTTPS 安全超文本傳輸協議,HTTPS是在HTTP上建立SSL加密層,並對傳輸數據進行加密,是HTTP協議的安全版。

  • HTTPS的加密演算法演算法包括(簡略):

    1. 對稱密鑰加密

    2. 非對稱密鑰加密

    3. 證書密鑰加密

--cookies簡單介紹介紹

  • Cookie 是瀏覽器訪問伺服器後,伺服器傳給瀏覽器的一段數據;

  • 瀏覽器需要保存這段數據,不得輕易刪除;

  • 此後每次瀏覽器訪問該伺服器,都必須帶上這段數據,這樣才能證明你就是你;

  • 詳情瞭解請自行百度,後續會介紹cookies的用法。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 併發容器 一、ConcurrentHashMap 【1】引入ConcurrentHashMap的目的 ​ ConcurrentHashMap從JDK1.5開始隨java.util.concurrent包一起引入JDK中,主要為瞭解決HashMap線程不安全和Hashtable效率不高的問題。眾所周知 ...
  • 恢復內容開始 盯著電腦工作大半天了,有點疲勞,想想同樣苦逼盯著電腦的女朋友,就想逗逗她緩解一下疲勞。 於是一時手癢,開始了新一輪的騷操作,用Python基於itchat實現微信控制電腦打開攝像頭拍攝當前電腦的使用者並且將圖片發送到你微信上的功能。看到圖片後差點閃瞎我 24k 血輪眼。打碼上圖: 本操 ...
  • import java.util.NoSuchElementException;public class LinkedListT<E> { private Node<E> first; private Node<E> last; long size = 0l; private void linkLa ...
  • 2019-10-19-21:09:31 面向對象的封裝性 封裝性 概念:封裝就是將一些細節信息隱藏起來,對於外界不可見 面向對象封裝性在Java中的體現 1.方法就是一種封裝 2.關鍵字private也是一種封裝 Private關鍵字的使用 why:定義某些類時,無法阻止不合理的數值被設置進來,所以 ...
  • python學習10—迭代器 1. 迭代器協議 對象必須提供一個next方法,執行該方法或者返回迭代中的下一項,或者返回一個StopIteration異常,以終止迭代(只能往後走不能往前退) 2. 可迭代對象 實現了迭代器協議的對象,對象內部定義一個__iter__()方法 3. for迴圈實現機制 ...
  • 前言 什麼是電腦語言 電腦就是一臺用來計算的機器,人讓電腦乾什麼電腦就得乾什麼! 需要通過電腦的語言來控制電腦(也就是編程語言)! 電腦語言其實和人類的語言沒有本質的區別,不同點就是交流的主體不同! 電腦語言發展經歷了三個階段: 1). 機器語言 機器語言通過二進位編碼來編寫程式 執 ...
  • 最近在看一些項目的源碼,總是能學到好多東西。 關於arparse中type的類型指定 不止可以指定常規類型,還可以加一些自己類型判斷,具體用法如下( "來源" ): ...
  • 編者薦語: 其實我感覺吧。說不上哪個語言會比另一個語言更好。只能說某個語言在某個方面處理某些問題更具有優勢吧。 大概每個開發人員應該都會認為自己使用的語言是世界最好的語言吧。這都相對來說的。對於每個人應該都是不同的。 ​ 眾所周知,知乎早在幾年前就將推薦系統從 Python 轉為了 Go。於是乎,一 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...