爬蟲入門_ZenDei技術網路在線

爬蟲入門

-Advertisement-

爬蟲的定義什麼是爬蟲？爬蟲(又被稱為網頁蜘蛛，網路機器人)就是模擬客戶端發送網路請求，接收請求響應，一種按照一定的規則，自動地抓取互聯網信息的程式。原則上，只要是瀏覽器(客戶端)能做的事情，爬蟲都能夠做。爬蟲的分類和爬蟲的流程爬蟲的分類爬蟲的分類根據被爬網站的數量不同，我們把爬蟲分為 ...

爬蟲的定義

什麼是爬蟲？

　　　　爬蟲(又被稱為網頁蜘蛛，網路機器人)就是模擬客戶端發送網路請求，接收請求響應，一種按照一定的規則，自動地抓取互聯網信息的程式。　　　　原則上，只要是瀏覽器(客戶端)能做的事情，爬蟲都能夠做。

爬蟲的分類和爬蟲的流程

　　爬蟲的分類

　　根據被爬網站的數量不同，我們把爬蟲分為

通用爬蟲：通常指搜索引擎的爬蟲
聚焦爬蟲：針對特定網站的爬蟲

　　聚焦爬蟲的工作流程如下 　　　　　　urllist --> 響應的內容 --> 提取數據 -->入庫

robots協議

robots協議 　　網站通過robots協議告訴搜索引擎哪些頁面可以被抓取,哪些頁面不能被抓取，但它僅僅是道德層面上的約束

HTTPS和HTTP的複習

　　http和https的概念

　　HTTP

超文本傳輸協議
預設埠號：80

　　HTTPS

HTTP+SSL(安全套接字層)

預設埠號：443

　　https比http更安全，但性能更低

瀏覽器發送http請求的過程

　　當我們在本地輸入www.baidu.com的時候，瀏覽器會先嘗試從本地的host文件中獲取到對應的ip地址，如果不能，會通過DNS伺服器獲取www.baidu.com對應的ip。下一步就是使用tcp協議，建立tcp連接。然後使用HTTP協議請求網頁的內容，收到伺服器的回應，得到一串HTML形式的文本，瀏覽器把它渲染並顯示到屏幕上。瀏覽器會自動請求js，css等內容，js會修改頁面內容。最後瀏覽器渲染出來的內容在elements中，其中包括css，js，圖片，url地址對應響應的內容等。　　但是在爬蟲中，爬蟲只會請求url地址，拿到url地址響應的內容渲染出來的頁面和爬蟲請求的頁面不一樣

所以在爬蟲中，需要以url地址對應的響應來提取內容

url的形式

　　url的形式：scheme://host[:port#]/path/…/[?query-string][#anchor]

scheme：協議
host：伺服器的ip地址或者功能變數名稱
port：埠號
path：請求資源的路徑
query_string：參數，發送給http伺服器的數據
anchor：錨 (跳轉到網頁的指定的錨點位置)

http重點的請求頭

　　user-agent：告訴對方伺服器是什麼客戶端正在請求資源，爬蟲中模擬瀏覽器非常重要的一個手段

python2和python3中的字元串

ascii 一個位元組表示一個字元
unicode 兩個位元組表示一個字元
utf-8 變長的編碼，可以是1，2，3，4個位元組

　　python2

位元組類型，str類型，通過decode()轉為unicode類型
unicode類型：unicode，通過encode()轉為str位元組類型

　　python3

str：unicode，通過encode()轉為bytes類型
bytes：位元組類型，通過decode()轉為str類型

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

if語句

1 n=int(input()) 2 if n5: 4 print('ok') 5 else: 6 print('no') 7 else: 8 print('error') ...
python的os模塊

os模塊，主要提供對操作系統進行調用的介面。 ...
網路編程 socket 開發練習題

1 什麼是C/S架構 c指的是client（客戶端軟體），S指的是Server（服務端軟體），C/S架構的軟體，實現服務端軟體與客戶端軟體基於網路通信 2 互聯網協議是什麼？分別介紹五層協議中每一層的功能互聯網協議就是電腦界的通訊標準物理層功能：主要是基於電器特性發送高低電壓(電信號)，高電壓 ...
PHP實現防止SQL註入的2種方法

PHP簡單實現防止SQL註入的方法,結合實例形式分析了PHP防止SQL註入的常用操作技巧與註意事項，PHP源碼備有詳盡註釋便於理解，需要的朋友可以參考下！方法一：execute代入參數方法二：bindParam綁定參數 ...
最新版IntelliJ IDEA2018.3破解教程

破解步驟 1、下載補丁 2、修改配置文件 3、輸入激活碼 4、激活成功下載補丁下載地址（如發現下載鏈接失效，請聯繫我的QQ郵箱，謝謝~）：適用版本（沒有測試向下相容性）： |補丁文件名|適合Idea版本| |: |: | |JetbrainsCrack 3.4 release enc.jar| ...
1到100之間的素數

public class TestSuShu { public static void main(String[] args) { for(int i=2;i<=100;i++) { boolean isSushu = true; for(int j=2;j<i;j++) { if(i%j==0) ...
洛谷P4781 【模板】拉格朗日插值(拉格朗日插值)

題意 "題目鏈接" Sol 記得NJU有個特別強的ACM隊叫拉格朗，總感覺少了什麼。。不說了直接扔公式 $$f(x) = \sum_{i = 1}^n y_i \prod_{j \not = i} \frac{k x[j]}{x[i] x[j]}$$ 複雜度$O(n^2)$ 如果$x$的取值是連續 ...
[linux] tcpdump抓包案例

1.常見參數 tcpdump -i eth0 -nn -s0 -v port 80 -i 選擇監控的網卡 -nn 不解析主機名和埠號，捕獲大量數據，名稱解析會降低解析速度 -s0 捕獲長度無限制 -v 增加輸出中顯示的詳細信息量 port 80 埠過濾器，只捕獲80埠的流量，通常是HTTP 2... ...

爬蟲入門

爬蟲的定義

什麼是爬蟲？

爬蟲的分類和爬蟲的流程

爬蟲的分類

robots協議

HTTPS和HTTP的複習

http和https的概念

瀏覽器發送http請求的過程

url的形式

http重點的 請求頭

python2和python3中的字元串

python2

python3

　　爬蟲的分類

　　http和https的概念

http重點的請求頭

　　python2

　　python3