Python爬蟲(1):基礎知識

来源:https://www.cnblogs.com/finsomway/archive/2019/04/03/10649620.html
-Advertisement-
Play Games

爬蟲基礎知識 一、什麼是爬蟲? 向網站發起請求,獲取資源後分析並提取有用數據的程式。 二、爬蟲的基本流程 1、發起請求 2、獲取內容 3、解析內容 4、保存數據 三、Request和Response Request:用戶將自己的信息通過瀏覽器(socket client)發送給伺服器(socket ...


爬蟲基礎知識

一、什麼是爬蟲?

向網站發起請求,獲取資源後分析並提取有用數據的程式。

二、爬蟲的基本流程

1、發起請求

2、獲取內容

3、解析內容

4、保存數據

三、Request和Response

Request:用戶將自己的信息通過瀏覽器(socket client)發送給伺服器(socket server)

Response:伺服器接收請求,分析用戶發來的請求信息,然後返回數據(返回的數據中可能包含其他鏈接,如:圖片,js,css等)

註:瀏覽器在接收Response後,會解析其內容來顯示給用戶,而爬蟲程式在模擬瀏覽器發送請求然後接收Response後,是要提取其中的有用數據。

四、Request中包含什麼?

1、請求方式

主要有GET、POST,還有HEAD、PUT、DELETE、POTIONS等。

2、請求URL

URL,即統一資源定位符,也就是網址,統一資源定位符是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。

3、請求頭

User-agent、host、cookies

User-agent:請求頭中如果沒有user-agent客戶端配置, 服務端可能將你當做一個非法用戶。

host

cookies:cookie用來保存登錄信息。

一般做爬蟲都會加上請求頭。

4、請求體

請求體是請求時額外攜帶的數據。如果是get方式,請求體沒有內容;如果是post方式,請求體是format data。

五、Response中包含什麼?

1、響應狀態

200:代表成功

301:代表跳轉

404:文件不存在

403:許可權

502:伺服器錯誤

2、響應頭

響應頭需要註意的參數:

(1)Set-Cookie:BDSVRTM=0; path=/:可能有多個,是來告訴瀏覽器,把cookie保存下來;

(2)Content-Location:服務端響應頭中包含Location返回瀏覽器之後,瀏覽器就會重新訪問另一個頁面。

3、響應體

六、能抓取什麼數據?

1、網頁文本(HTML、Json)

2、圖片

3、視頻

4、其他

七、網頁解析的方式

1、直接處理

2、Json處理

3、正則表達式

4、BeautifulSoup

5、PyQuery

6、XPath

八、為什麼抓到的和瀏覽器看到的不一樣?

因為爬蟲爬取的數據是Js沒有渲染的數據,而瀏覽器中看到的是JS完成渲染後的數據。

九、怎麼用JavaScript渲染?

當我們進行網頁爬蟲時,我們會利用一定的規則從返回的 HTML 數據中提取出有效的信息。但是如果網頁中含有 JavaScript 代碼,我們必須經過渲染處理才能獲得原始數據。

1、分析Ajax請求

2、selenium/WebDriver

十、怎麼保存數據?

1、文本

2、關係型資料庫

3、非關係型

4、圖片音頻

 

 

各位,我回來了,3月的時候自學爬蟲,不過資料準備不足,加上拖延症發作,到現在爬蟲都還沒入門。未來會邊學邊更新,沒有辦法保證一天一更了。

文中難免有不足之處,歡迎批評指正。

 

參考資料:

1、什麼是爬蟲:http://www.cnblogs.com/935415150wang/p/7793306.html

2、Python2爬蟲學習系列教程|靜覓:https://cuiqingcai.com/1052.html

3、Python Request庫Get和Post的區別:http://www.cnblogs.com/mango-lee/p/7116425.html

4、爬蟲技術:(JavaScript渲染)動態頁面抓取超級指南:https://blog.csdn.net/sqzhao/article/details/50853996

5、python學習之python爬蟲原理 :http://www.sohu.com/a/251575938_100120307

6、爬蟲從頭學之爬蟲基本原理:https://blog.csdn.net/prospective0821/article/details/80630436


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • // 設置 restTemplate FormHttpMessageConverter 編碼方式 @Configurationpublic class RestTemplateConfig { @Bean RestTemplate restTemplate(){ SimpleClientHttpRe ...
  • 1.XML基礎: XML全稱為eXtensible Markup Language;即可擴展標記型語言,同HTML一樣使用標簽來操作。它的可擴展性體現在標簽可以由自己定義,可以是中文標簽。 XML用途: 同HTML一樣可用於顯示數據,但是不是XML的主要用途。XML我們多用來存儲數據。 應用: 1) ...
  • 再議Java中的static關鍵字 java中的static關鍵字在很久之前的一篇博文中已經講到過了,感興趣的朋友可以參考:《Java中的static關鍵字解析》。 今天我們再來談一談static關鍵字,這次我們側重講述static關鍵字的一些使用場景和方式,以下是本文目錄大綱: 一.static關 ...
  • 1. Hystrix概念設計 1.1. 大綱 1.2. 基本的容錯模式 1.3. 斷路器模式 1.4. 艙壁隔離模式 1.5. 容錯理念 1. 凡事依賴都可能失敗 2. 凡事資源都有限制 3. 網路並不可靠 4. 延遲是應用穩定性殺手 1.6. 彈性理念 1.7. 攜程案例(2015) 1.8. D ...
  • 引言 ZooKeeper是中典型的pub/sub模式的分散式數據管理與協調框架,開發人員可以使用它進行分散式數據的發佈與訂閱。另外,其豐富的數據節點類型可以交叉使用,配合Watcher事件通知機制,可以應用於分散式都會涉及的一些核心功能:數據發佈/訂閱、Master選舉、命名服務、分散式協調/通知、 ...
  • 一、前言 日誌對於一個系統的重要性不言而喻,日誌能幫我們快速定位線上問題,市場上存在非常多的日誌框架,比較常見的有 JUL,JCL,Log4j,Log4j2,Logback、SLF4j、jboss-logging等。 spring-boot-starter-logging採用了slf4j+logba ...
  • 前言 以前看別人博客說看完《深入理解Java虛擬機》這本書並沒有讓自己的編程水平提高多少,不過卻大大提高了自己的裝逼水平。其實,我倒不這麼認為,至少在我看完一遍這本書後,有一種醍醐灌頂的感覺,很多模糊的知識和概念也變得清晰起來。今天,也是偶然的機會能夠運用書中所學的知識解決實際問題,在這裡,與大家分 ...
  • 前面介紹瞭如何利用反射技術讀寫私有屬性,不單是私有屬性,就連私有方法也能通過反射技術來調用。為了演示反射的逆天功能,首先給Chicken雞類增加下列幾個私有方法,簡單起見弄來了set***/get***這樣的基本方法: 參照私有屬性的反射操作過程,私有方法的反射調用可分解為如下三個步驟: 1、調用C ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...