Python爬蟲（1）：基礎知識

-Advertisement-

爬蟲基礎知識一、什麼是爬蟲？向網站發起請求，獲取資源後分析並提取有用數據的程式。二、爬蟲的基本流程 1、發起請求 2、獲取內容 3、解析內容 4、保存數據三、Request和Response Request：用戶將自己的信息通過瀏覽器（socket client）發送給伺服器（socket ...

爬蟲基礎知識

一、什麼是爬蟲？

向網站發起請求，獲取資源後分析並提取有用數據的程式。

二、爬蟲的基本流程

1、發起請求

2、獲取內容

3、解析內容

4、保存數據

三、Request和Response

Request：用戶將自己的信息通過瀏覽器（socket client）發送給伺服器（socket server）

Response：伺服器接收請求，分析用戶發來的請求信息，然後返回數據（返回的數據中可能包含其他鏈接，如：圖片，js，css等）

註：瀏覽器在接收Response後，會解析其內容來顯示給用戶，而爬蟲程式在模擬瀏覽器發送請求然後接收Response後，是要提取其中的有用數據。

四、Request中包含什麼？

1、請求方式

主要有GET、POST，還有HEAD、PUT、DELETE、POTIONS等。

2、請求URL

URL，即統一資源定位符，也就是網址，統一資源定位符是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示，是互聯網上標準資源的地址。互聯網上的每個文件都有一個唯一的URL，它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。

3、請求頭

User-agent、host、cookies

User-agent：請求頭中如果沒有user-agent客戶端配置，服務端可能將你當做一個非法用戶。

host

cookies：cookie用來保存登錄信息。

一般做爬蟲都會加上請求頭。

4、請求體

請求體是請求時額外攜帶的數據。如果是get方式，請求體沒有內容；如果是post方式，請求體是format data。

五、Response中包含什麼？

1、響應狀態

200：代表成功

301：代表跳轉

404：文件不存在

403：許可權

502：伺服器錯誤

2、響應頭

響應頭需要註意的參數：

(1)Set-Cookie:BDSVRTM=0; path=/：可能有多個，是來告訴瀏覽器，把cookie保存下來；

(2)Content-Location：服務端響應頭中包含Location返回瀏覽器之後，瀏覽器就會重新訪問另一個頁面。

3、響應體

六、能抓取什麼數據？

1、網頁文本（HTML、Json）

2、圖片

3、視頻

4、其他

七、網頁解析的方式

1、直接處理

2、Json處理

3、正則表達式

4、BeautifulSoup

5、PyQuery

6、XPath

八、為什麼抓到的和瀏覽器看到的不一樣？

因為爬蟲爬取的數據是Js沒有渲染的數據，而瀏覽器中看到的是JS完成渲染後的數據。

九、怎麼用JavaScript渲染？

當我們進行網頁爬蟲時，我們會利用一定的規則從返回的 HTML 數據中提取出有效的信息。但是如果網頁中含有 JavaScript 代碼，我們必須經過渲染處理才能獲得原始數據。

1、分析Ajax請求

2、selenium/WebDriver

十、怎麼保存數據？

1、文本

2、關係型資料庫

3、非關係型

4、圖片音頻

各位，我回來了，3月的時候自學爬蟲，不過資料準備不足，加上拖延症發作，到現在爬蟲都還沒入門。未來會邊學邊更新，沒有辦法保證一天一更了。

文中難免有不足之處，歡迎批評指正。

參考資料：

1、什麼是爬蟲：http://www.cnblogs.com/935415150wang/p/7793306.html

2、Python2爬蟲學習系列教程|靜覓：https://cuiqingcai.com/1052.html

3、Python Request庫Get和Post的區別：http://www.cnblogs.com/mango-lee/p/7116425.html

4、爬蟲技術:(JavaScript渲染)動態頁面抓取超級指南：https://blog.csdn.net/sqzhao/article/details/50853996

5、python學習之python爬蟲原理：http://www.sohu.com/a/251575938_100120307

6、爬蟲從頭學之爬蟲基本原理：https://blog.csdn.net/prospective0821/article/details/80630436

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

restTemplate 發送 MultiValueMap 中文亂碼（FormHttpMessageConverter 編碼方式）

// 設置 restTemplate FormHttpMessageConverter 編碼方式 @Configurationpublic class RestTemplateConfig { @Bean RestTemplate restTemplate(){ SimpleClientHttpRe ...
JavaWeb學習日記----XML第二天

1.XML基礎： XML全稱為eXtensible Markup Language;即可擴展標記型語言，同HTML一樣使用標簽來操作。它的可擴展性體現在標簽可以由自己定義，可以是中文標簽。 XML用途：同HTML一樣可用於顯示數據，但是不是XML的主要用途。XML我們多用來存儲數據。應用： 1) ...
再議Java中的static關鍵字

再議Java中的static關鍵字 java中的static關鍵字在很久之前的一篇博文中已經講到過了，感興趣的朋友可以參考：《Java中的static關鍵字解析》。今天我們再來談一談static關鍵字，這次我們側重講述static關鍵字的一些使用場景和方式，以下是本文目錄大綱：一.static關 ...
Hystrix概念設計

1. Hystrix概念設計 1.1. 大綱 1.2. 基本的容錯模式 1.3. 斷路器模式 1.4. 艙壁隔離模式 1.5. 容錯理念 1. 凡事依賴都可能失敗 2. 凡事資源都有限制 3. 網路並不可靠 4. 延遲是應用穩定性殺手 1.6. 彈性理念 1.7. 攜程案例（2015） 1.8. D ...
ZooKeeper的三種典型應用場景

引言 ZooKeeper是中典型的pub/sub模式的分散式數據管理與協調框架，開發人員可以使用它進行分散式數據的發佈與訂閱。另外，其豐富的數據節點類型可以交叉使用，配合Watcher事件通知機制，可以應用於分散式都會涉及的一些核心功能：數據發佈/訂閱、Master選舉、命名服務、分散式協調/通知、 ...
springboot之旅第三篇-日誌

一、前言日誌對於一個系統的重要性不言而喻，日誌能幫我們快速定位線上問題，市場上存在非常多的日誌框架，比較常見的有 JUL，JCL，Log4j，Log4j2，Logback、SLF4j、jboss-logging等。 spring-boot-starter-logging採用了slf4j+logba ...
運用《深入理解Java虛擬機》書中知識解決實際問題

前言以前看別人博客說看完《深入理解Java虛擬機》這本書並沒有讓自己的編程水平提高多少，不過卻大大提高了自己的裝逼水平。其實，我倒不這麼認為，至少在我看完一遍這本書後，有一種醍醐灌頂的感覺，很多模糊的知識和概念也變得清晰起來。今天，也是偶然的機會能夠運用書中所學的知識解決實際問題，在這裡，與大家分 ...
Java開發筆記（八十）利用反射技術操作私有方法

前面介紹瞭如何利用反射技術讀寫私有屬性，不單是私有屬性，就連私有方法也能通過反射技術來調用。為了演示反射的逆天功能，首先給Chicken雞類增加下列幾個私有方法，簡單起見弄來了set***/get***這樣的基本方法：參照私有屬性的反射操作過程，私有方法的反射調用可分解為如下三個步驟： 1、調用C ...