Python3網路爬蟲筆記——一、什麼是爬蟲

来源:http://www.cnblogs.com/AIBDMLDM/archive/2017/07/08/7137237.html
-Advertisement-
Play Games

一、什麼是爬蟲 首先簡單的理解一下爬蟲。即請求網站並且提取自己所需的數據的一個過程。至於怎麼爬如何爬,將是後面進行學習的內容,暫且不必深究。通過我們的程式,可以代替我們向伺服器發送請求,然後進行批量、大量的數據的下載。 二、爬蟲的基本流程 三、request請求包含什麼 當我們通過瀏覽器向伺服器發送 ...


一、什麼是爬蟲  

  首先簡單的理解一下爬蟲。即請求網站並且提取自己所需的數據的一個過程。至於怎麼爬,將是後面進行學習的內容,暫且不必深究。通過我們的程式,可以代替我們向伺服器發送請求,然後進行批量、大量的數據的下載。

 

二、爬蟲的基本流程

  1. 發起請求:通過url向伺服器發起request請求,請求可以包含額外的header信息。
  2. 獲取響應內容:如果伺服器正常響應,那我們將會收到一個response,response即為我們所請求的網頁內容,或許包含HTML,Json字元串或者二進位的數據(視頻、圖片)等。
  3. 解析內容:如果是HTML代碼,則可以使用網頁解析器進行解析,如果是Json數據,則可以轉換成Json對象進行解析,如果是二進位的數據,則可以保存到文件進行進一步處理。
  4. 保存數據:可以保存到本地文件,也可以保存到資料庫(MySQL,Redis,Mongodb等)  

  

  三、request請求包含什麼

    當我們通過瀏覽器向伺服器發送request請求時,這個request包含了一些什麼信息呢?我們可以通過chrome的開發者工具進行說明(如果不知道如何使用看本篇備註)。

  1. 請求方式:最常用的請求方式包括get請求和post請求。post請求在開發中最常見的是通過表單進行提交,從用戶角度來講,最常見的就是登錄驗證。當你需要輸入一些信息進行登錄的時候,這次請求即為post請求。
  2. url統一資源定位符:一個網址,一張圖片,一個視頻等都可以用url去定義。當我們請求一個網頁時,我們可以查看network標簽,第一個通常是一個document,也就是說這個document是一個未加外部圖片、css、js等渲染的html代碼,在這個document的下麵我們會看到一系列的jpg,js等,這是瀏覽器根據html代碼發起的一次又一次的請求,而請求的地址,即為html文檔中圖片、js等的url地址
  3. request headers:請求頭,包括這次請求的請求類型,cookie信息以及瀏覽器類型等。 這個請求頭在我們進行網頁抓取的時候還是有些作用的,伺服器會通過解析請求頭來進行信息的審核,判斷這次請求是一次合法的請求。所以當我們通過程式偽裝瀏覽器進行請求的時候,就可以設置一下請求頭的信息。
  4. 請求體:post請求會把用戶信息包裝在form-data裡面進行提交,因此相比於get請求,post請求的Headers標簽的內容會多出Form Data這個信息包。get請求可以簡單的理解為普通的搜索回車,信息將會以?間隔添加在url的後面。

  

 四、response包含什麼

  1. 響應狀態:通過Headers中的General可以看到status code。200表示成功,301跳轉,404找不到網頁,502伺服器錯誤等。
  2. 響應頭:包括了內容的類型,cookie信息等。
  3. 響應體:請求的目的就是為了得到響應體,包括html代碼,Json以及二進位數據等。

 

  五、簡單的請求演示

    通過Python的request庫進行網頁請求:

    

    輸出的結果就是還未渲染的網頁代碼,即請求體的內容。可以查看響應頭的信息:

    

    查看狀態碼:

    

    還可以將請求頭添加到請求信息裡面:

    

    抓取圖片(百度logo):

    

 

 六、如何解決JavaScript渲染問題 

    使用Selenium webdriver

    

    輸入print(driver.page_source)可以看到,這次的代碼是渲染之後的代碼。

    

 

【備註】chrome瀏覽器的使用

  • F12打開開發者工具

  

 

  Elements標簽顯示了顯然後的HTML代碼。

  • Network標簽

  

 

  Network標簽下有瀏覽器請求的數據,點開可以查看詳細的信息,如上提到的request headers、response headers等等。

   

 

 

YouTube學習視頻(Elnino Chen老師):https://www.youtube.com/channel/UC0gXu_5GOwzAaxkFymbwRhg 

 

 

 

 

 

 

 

  


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 動態代理案例1:/*要求:運用Proxy動態代理來增強方法題目: 1.定義介面Fruit,其中有addFruit方法 2.定義實現類FruitImpl,實現Fruit介面 3.定義測試類,利用動態代理類的方式,增強addFruit方法*/ 1 import java.lang.reflect.Pro... ...
  • 文件內容如下: 現在看如何處理並轉成列表! 輸出結果如下: ...
  • K-th Number Time Limit: 20000MS Memory Limit: 65536K Total Submissions: 57427 Accepted: 19856 Case Time Limit: 2000MS Description You are working for ...
  • JSP的本質是Servlet源程式 每個JSP頁面在第一次被訪問時,JSP引擎將它翻譯成一個Servlet源程式,接著再把這個Serlvet源程式編譯成Servlet的class類文件。 然後再由Web容器(Servlet引擎)像調用普通Servlet程式一樣的方式來裝載和解釋執行這個Servlet ...
  • 一、簡介 subprocess最早在2.4版本引入。用來生成子進程,並可以通過管道連接他們的輸入/輸出/錯誤,以及獲得他們的返回值。 subprocess用來替換多個舊模塊和函數: os.system os.spawn* os.popen* popen2.* commands.* 運行python的 ...
  • 學了一段時間flask,可是一直沒有做過部署, 於是想著怎麼部署呢, 想想,先吧服務給搞通吧,於是呢 就先想著去吧服務給搞起來,這裡選擇的是Flask+uwsgi+Nginx+Ubuntu, Python選擇的是2.7.2這個是Ubuntu系統自帶的學起來感覺還是簡單的 不用去軟連,目前自己的fla ...
  • 直接輸出系統命令到屏幕,該方法獲取的命令返回值不可被賦值給變數,輸出結果受編碼影響會亂碼: 將執行獲取的系統命令存入記憶體,再將記憶體中的結果讀取出來輸出到屏幕,不會亂碼: 在執行文件所在目錄下創建文件夾 ...
  • pb_ds庫之hash 最近在做hash的模板題,自己手打的的hash代碼長還容易出錯。 但STL中有一個pb_ds庫,裡面的hash函數和手打的hash速度差不多,比STL中的map快多了。 與大家分享一下,不足之處還請各位神犇指出和補充。 本文只是簡略地介紹此函數在hash中的應用,若想深入研究 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...