爬蟲介紹

-Advertisement-

前言：該系列為爬蟲基礎，適合沒有接觸過python或剛剛起步的同學，如有錯誤，歡迎指出。 --爬蟲的定義：通過編寫程式，模擬瀏覽器行為瀏覽網頁，獲取互聯網上的數據，也稱為蜘蛛，如：百度；谷歌，都是爬蟲。註意：爬蟲是python的一個分支或者說方向，個人自學python(爬蟲)兩年，從0-1，一 ...

前言：該系列為爬蟲基礎，適合沒有接觸過python或剛剛起步的同學，如有錯誤，歡迎指出。

--爬蟲的定義：

通過編寫程式，模擬瀏覽器行為瀏覽網頁，獲取互聯網上的數據，也稱為蜘蛛，如：百度；谷歌，都是爬蟲。

註意：

爬蟲是python的一個分支或者說方向，個人自學python(爬蟲)兩年，從0-1，一步一步走來，明白其中的辛苦，若你沒有大毅力，就不要自學了；給初學者的建議：第一語言不要學習python，(個人見解，不喜勿噴)。

--爬蟲的分類：

通用爬蟲：獲取的只是一個url(網址)下的頁面數據；
聚焦爬蟲：根據指定的需求獲取頁面中指定的局部數據；
增量式爬蟲：用來監測網站數據更新的情況。

--概念混淆：

反爬機制：網站可以採用相關的技術手段或者策略阻止爬蟲對網站的數據獲取(代碼報錯)。
反反爬策略：讓爬蟲程式偽裝(破解)網站限制並獲得數據。

--robots協議：君子協議，裡面限制了哪些可爬，哪些不可爬，但是你可以不用遵守。

如淘寶下的robots.txt : https://www.taobao.com/robots.txt

--爬蟲流程的概括：

獲取網頁源碼 ===》urllib、requests
提取所需要的業務數據 ==》BeautifulSoup、xpath、css選擇器、pyquery
保存數據 ===》 json、csv、txt(文件存儲)等；
自動化程式

--URL(統一資源定位符，俗稱網址)

URL的全稱感興趣的可以瞭解一下，我們主要解釋一下它是做什麼的，我們每天網上衝浪，百度瞭解一下，我們在瀏覽器的輸入框=》www.baidu.com 這就是url。
如：https://github.com/favicon.ico，我們用URL來唯一指定它的訪問方式，這其中包括了訪問協議https、訪問路徑和資源名稱，通過這樣的鏈接，我們便可以從互聯網上找到資源，這就是url.

--超文本(HTML)

你打開一個網址如：www.baidu.com;你所看見的頁面正是通過html以及其他的語言渲染出來的，我們右擊->查看網頁源代碼；或者按F12你會發現有代碼出現，裡面就包括HTML代碼。

--HTTP/HTTPS協議介紹

概念：HTTP協議就是伺服器端(網站的伺服器)與客戶端(自己的電腦)之間進行數據交互的一種方式。

HTTP工作原理：HTTP協議工作在客戶端-服務端交媾之上的；瀏覽器作為HTTP客戶端通過URL向HTTP服務端即WEB伺服器發送所有請求；Web伺服器根據接收到的請求後，向客戶端發送響應信息。

常見的請求頭信息：

accept:瀏覽器通過這個頭告訴伺服器，它所支持的數據類型Accept-Charset: 瀏覽器通過這個頭告訴伺服器，它支持哪種字元集
Accept-Encoding：瀏覽器通過這個頭告訴伺服器，支持的壓縮格式
Accept-Language：瀏覽器通過這個頭告訴伺服器，它的語言環境
Host：瀏覽器通過這個頭告訴伺服器，想訪問哪台主機
If-Modified-Since: 瀏覽器通過這個頭告訴伺服器，緩存數據的時間
Referer：瀏覽器通過這個頭告訴伺服器，客戶機是哪個頁面來的 防盜鏈
Connection：瀏覽器通過這個頭告訴伺服器，請求完後是斷開鏈接還是何持鏈接
X-Requested-With: XMLHttpRequest 代表通過ajax方式進行訪問
User-Agent：請求載體的身份標識

常見的響應頭信息：

Location: 伺服器通過這個頭，來告訴瀏覽器跳到哪裡
Server：伺服器通過這個頭，告訴瀏覽器伺服器的型號
Content-Encoding：伺服器通過這個頭，告訴瀏覽器，數據的壓縮格式
Content-Length: 伺服器通過這個頭，告訴瀏覽器回送數據的長度
Content-Language: 伺服器通過這個頭，告訴瀏覽器語言環境
Content-Type：伺服器通過這個頭，告訴瀏覽器回送數據的類型
Refresh：伺服器通過這個頭，告訴瀏覽器定時刷新
Content-Disposition: 伺服器通過這個頭，告訴瀏覽器以下載方式打數據
Transfer-Encoding：伺服器通過這個頭，告訴瀏覽器數據是以分塊方式回送的
Expires: -1 控制瀏覽器不要緩存

關於怎麼查看請求頭信息/響應頭信息，我會在後面出專門的文章來解惑。
關於HTTPS協議定義：HTTPS 安全超文本傳輸協議，HTTPS是在HTTP上建立SSL加密層，並對傳輸數據進行加密，是HTTP協議的安全版。
HTTPS的加密演算法演算法包括（簡略）：
1. 對稱密鑰加密
2. 非對稱密鑰加密
3. 證書密鑰加密

--cookies簡單介紹介紹

Cookie 是瀏覽器訪問伺服器後，伺服器傳給瀏覽器的一段數據；
瀏覽器需要保存這段數據，不得輕易刪除；
此後每次瀏覽器訪問該伺服器，都必須帶上這段數據，這樣才能證明你就是你；
詳情瞭解請自行百度，後續會介紹cookies的用法。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

七、併發容器

併發容器一、ConcurrentHashMap 【1】引入ConcurrentHashMap的目的 ConcurrentHashMap從JDK1.5開始隨java.util.concurrent包一起引入JDK中，主要為瞭解決HashMap線程不安全和Hashtable效率不高的問題。眾所周知 ...
上班無聊，用Python遠程式控制制女朋友電腦，惡搞拍攝她跟我聊天時表情！

恢復內容開始盯著電腦工作大半天了，有點疲勞，想想同樣苦逼盯著電腦的女朋友，就想逗逗她緩解一下疲勞。於是一時手癢，開始了新一輪的騷操作，用Python基於itchat實現微信控制電腦打開攝像頭拍攝當前電腦的使用者並且將圖片發送到你微信上的功能。看到圖片後差點閃瞎我 24k 血輪眼。打碼上圖：本操 ...
2019.10.19雙向鏈表

import java.util.NoSuchElementException;public class LinkedListT<E> { private Node<E> first; private Node<E> last; long size = 0l; private void linkLa ...
Java之路---Day05

2019-10-19-21:09:31 面向對象的封裝性封裝性概念:封裝就是將一些細節信息隱藏起來,對於外界不可見面向對象封裝性在Java中的體現 1.方法就是一種封裝 2.關鍵字private也是一種封裝 Private關鍵字的使用 why:定義某些類時,無法阻止不合理的數值被設置進來,所以 ...
python學習10—迭代器

python學習10—迭代器 1. 迭代器協議對象必須提供一個next方法，執行該方法或者返回迭代中的下一項，或者返回一個StopIteration異常，以終止迭代（只能往後走不能往前退） 2. 可迭代對象實現了迭代器協議的對象，對象內部定義一個__iter__()方法 3. for迴圈實現機制 ...
Python入門你要懂哪些？

前言什麼是電腦語言電腦就是一臺用來計算的機器，人讓電腦乾什麼電腦就得乾什麼！需要通過電腦的語言來控制電腦（也就是編程語言）！電腦語言其實和人類的語言沒有本質的區別，不同點就是交流的主體不同！電腦語言發展經歷了三個階段： 1). 機器語言機器語言通過二進位編碼來編寫程式執 ...
python庫argparse中type的新奇指定方法

最近在看一些項目的源碼，總是能學到好多東西。關於arparse中type的類型指定不止可以指定常規類型，還可以加一些自己類型判斷,具體用法如下（ "來源" ）： ...
知乎用Go替代Python，是否說明Go比Python好？

編者薦語：其實我感覺吧。說不上哪個語言會比另一個語言更好。只能說某個語言在某個方面處理某些問題更具有優勢吧。大概每個開發人員應該都會認為自己使用的語言是世界最好的語言吧。這都相對來說的。對於每個人應該都是不同的。眾所周知，知乎早在幾年前就將推薦系統從 Python 轉為了 Go。於是乎，一 ...