Python3網路爬蟲筆記——一、什麼是爬蟲

来源:http://www.cnblogs.com/AIBDMLDM/archive/2017/07/08/7137237.html
-Advertisement-
Play Games

一、什麼是爬蟲 首先簡單的理解一下爬蟲。即請求網站並且提取自己所需的數據的一個過程。至於怎麼爬如何爬,將是後面進行學習的內容,暫且不必深究。通過我們的程式,可以代替我們向伺服器發送請求,然後進行批量、大量的數據的下載。 二、爬蟲的基本流程 三、request請求包含什麼 當我們通過瀏覽器向伺服器發送 ...


一、什麼是爬蟲  

  首先簡單的理解一下爬蟲。即請求網站並且提取自己所需的數據的一個過程。至於怎麼爬,將是後面進行學習的內容,暫且不必深究。通過我們的程式,可以代替我們向伺服器發送請求,然後進行批量、大量的數據的下載。

 

二、爬蟲的基本流程

  1. 發起請求:通過url向伺服器發起request請求,請求可以包含額外的header信息。
  2. 獲取響應內容:如果伺服器正常響應,那我們將會收到一個response,response即為我們所請求的網頁內容,或許包含HTML,Json字元串或者二進位的數據(視頻、圖片)等。
  3. 解析內容:如果是HTML代碼,則可以使用網頁解析器進行解析,如果是Json數據,則可以轉換成Json對象進行解析,如果是二進位的數據,則可以保存到文件進行進一步處理。
  4. 保存數據:可以保存到本地文件,也可以保存到資料庫(MySQL,Redis,Mongodb等)  

  

  三、request請求包含什麼

    當我們通過瀏覽器向伺服器發送request請求時,這個request包含了一些什麼信息呢?我們可以通過chrome的開發者工具進行說明(如果不知道如何使用看本篇備註)。

  1. 請求方式:最常用的請求方式包括get請求和post請求。post請求在開發中最常見的是通過表單進行提交,從用戶角度來講,最常見的就是登錄驗證。當你需要輸入一些信息進行登錄的時候,這次請求即為post請求。
  2. url統一資源定位符:一個網址,一張圖片,一個視頻等都可以用url去定義。當我們請求一個網頁時,我們可以查看network標簽,第一個通常是一個document,也就是說這個document是一個未加外部圖片、css、js等渲染的html代碼,在這個document的下麵我們會看到一系列的jpg,js等,這是瀏覽器根據html代碼發起的一次又一次的請求,而請求的地址,即為html文檔中圖片、js等的url地址
  3. request headers:請求頭,包括這次請求的請求類型,cookie信息以及瀏覽器類型等。 這個請求頭在我們進行網頁抓取的時候還是有些作用的,伺服器會通過解析請求頭來進行信息的審核,判斷這次請求是一次合法的請求。所以當我們通過程式偽裝瀏覽器進行請求的時候,就可以設置一下請求頭的信息。
  4. 請求體:post請求會把用戶信息包裝在form-data裡面進行提交,因此相比於get請求,post請求的Headers標簽的內容會多出Form Data這個信息包。get請求可以簡單的理解為普通的搜索回車,信息將會以?間隔添加在url的後面。

  

 四、response包含什麼

  1. 響應狀態:通過Headers中的General可以看到status code。200表示成功,301跳轉,404找不到網頁,502伺服器錯誤等。
  2. 響應頭:包括了內容的類型,cookie信息等。
  3. 響應體:請求的目的就是為了得到響應體,包括html代碼,Json以及二進位數據等。

 

  五、簡單的請求演示

    通過Python的request庫進行網頁請求:

    

    輸出的結果就是還未渲染的網頁代碼,即請求體的內容。可以查看響應頭的信息:

    

    查看狀態碼:

    

    還可以將請求頭添加到請求信息裡面:

    

    抓取圖片(百度logo):

    

 

 六、如何解決JavaScript渲染問題 

    使用Selenium webdriver

    

    輸入print(driver.page_source)可以看到,這次的代碼是渲染之後的代碼。

    

 

【備註】chrome瀏覽器的使用

  • F12打開開發者工具

  

 

  Elements標簽顯示了顯然後的HTML代碼。

  • Network標簽

  

 

  Network標簽下有瀏覽器請求的數據,點開可以查看詳細的信息,如上提到的request headers、response headers等等。

   

 

 

YouTube學習視頻(Elnino Chen老師):https://www.youtube.com/channel/UC0gXu_5GOwzAaxkFymbwRhg 

 

 

 

 

 

 

 

  


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 動態代理案例1:/*要求:運用Proxy動態代理來增強方法題目: 1.定義介面Fruit,其中有addFruit方法 2.定義實現類FruitImpl,實現Fruit介面 3.定義測試類,利用動態代理類的方式,增強addFruit方法*/ 1 import java.lang.reflect.Pro... ...
  • 文件內容如下: 現在看如何處理並轉成列表! 輸出結果如下: ...
  • K-th Number Time Limit: 20000MS Memory Limit: 65536K Total Submissions: 57427 Accepted: 19856 Case Time Limit: 2000MS Description You are working for ...
  • JSP的本質是Servlet源程式 每個JSP頁面在第一次被訪問時,JSP引擎將它翻譯成一個Servlet源程式,接著再把這個Serlvet源程式編譯成Servlet的class類文件。 然後再由Web容器(Servlet引擎)像調用普通Servlet程式一樣的方式來裝載和解釋執行這個Servlet ...
  • 一、簡介 subprocess最早在2.4版本引入。用來生成子進程,並可以通過管道連接他們的輸入/輸出/錯誤,以及獲得他們的返回值。 subprocess用來替換多個舊模塊和函數: os.system os.spawn* os.popen* popen2.* commands.* 運行python的 ...
  • 學了一段時間flask,可是一直沒有做過部署, 於是想著怎麼部署呢, 想想,先吧服務給搞通吧,於是呢 就先想著去吧服務給搞起來,這裡選擇的是Flask+uwsgi+Nginx+Ubuntu, Python選擇的是2.7.2這個是Ubuntu系統自帶的學起來感覺還是簡單的 不用去軟連,目前自己的fla ...
  • 直接輸出系統命令到屏幕,該方法獲取的命令返回值不可被賦值給變數,輸出結果受編碼影響會亂碼: 將執行獲取的系統命令存入記憶體,再將記憶體中的結果讀取出來輸出到屏幕,不會亂碼: 在執行文件所在目錄下創建文件夾 ...
  • pb_ds庫之hash 最近在做hash的模板題,自己手打的的hash代碼長還容易出錯。 但STL中有一個pb_ds庫,裡面的hash函數和手打的hash速度差不多,比STL中的map快多了。 與大家分享一下,不足之處還請各位神犇指出和補充。 本文只是簡略地介紹此函數在hash中的應用,若想深入研究 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...