python 爬蟲詳細步驟

-Advertisement-

一、爬蟲的步驟 1、需求分析（人做） 2、尋找網站（人）3、下載網站的返回內容（requests）4、通過返回的信息找到需要爬取的數據內容(正則表達式-re,xpath-lxml)5、存儲找到的數據內容(mysql) 二、requests import requests url = 'http:/ ...

一、爬蟲的步驟

1、需求分析（人做）

2、尋找網站（人）
3、下載網站的返回內容（requests）
4、通過返回的信息找到需要爬取的數據內容(正則表達式-re,xpath-lxml)
5、存儲找到的數據內容(mysql)

二、requests

import requests
url = 'http://www.baidu.com/'
response = requests.get(url)
print(response)

返回當前url的html信息，（其他url還可能獲取圖片等）
Response[200],Response是一個類，這個類重寫了__str__方法（）
返回值，如果一個url能正常返回html內容，返回值就是200

處理亂碼的方式
1.查看編碼方式：右鍵檢查—>找到head—>charset就是編碼方式
2.通過response指定編碼方式

response.encoding = 'utf-8'
print(response.text)
print('=' * 30)
print(response.content)

三、http協議

1.協議：即雙方遵守的語言，相當於語言，相同的語言能夠相互理解

2.HTTP協議

方法：GET POST

GET：通過URLl獲取網站的信息，不改變網站的狀態（不改變伺服器的任何內容）

POST：通過URL向網站傳輸信息，改變網站的狀態（POST比GET多from/body信息)

import requests

form = {
    'kw':'同'
}
url = 'https://fanyi.baidu.com/sug'
response = requests.post(url, data = form)
print(response.text)

HEAD:跟GET類似，但只有head信息s
OPTIONS:PUT通常指定了資源的存放位置
PUT:跟POST類似，但通常指定了資源的存放位置
DELET:刪除某個資源

3.HTTP協議的傳輸

Request —URL + request headers(請求頭信息)
Response —HTML ++ responce headers(返回頭信息)

General
Request URL: https://www.baidu.com/
Request Method: GET requests的獲取方法
Status Code: 200 OK 返回值
Remote Address: 14.215.177.39:443 伺服器名稱
Referrer Policy: no-referrer-when-downgrade

4.請求頭信息中重要的三個信息

a)User-Agent —身份是什麼
b)Referer —跳轉網頁是什麼（即現在的網頁是從哪個網頁來的）
c)cookie —本地存儲信息的—與伺服器的session一一對應
添加的順序：a—>b—>c如果能夠獲取，不再添加
如果加上都不行，把headers全部複製下來

import requests

url = 'https://www.xicidaili.com/nn/'

添加請求頭信息,字典的方式寫入

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36'
}
response = requests.get(url, headers = headers)

with open('xicidaili.txt', 'wb') as f:
    f.write(response.content)

5.url的組成

1.協議部分，常見的有"http:", “ftp:”
2.功能變數名稱部分，如"www.baidu.com",也可以用IP地址代替
3.埠部分，跟在功能變數名稱後面的是埠，功能變數名稱和埠用":“作為分隔符，埠不是必須的，如果省略埠，採用預設埠，常見的埠"8080”
4.虛擬目錄部分：從功能變數名稱（埠）後面第一個“\”到最後一個“\”為止，是虛擬目錄部分
5.文件名部分：從最後一個"“到”?“為止，或者從最後一個”“到”#“為止，或者從最後一個”“到最後
6.參數部分：從”?“開始到”#“為止之間的部分為參數部分，也叫搜索部分，查詢部分。參數與參數之間用”&“作為分位符
7.錨部分：從”#"開始到最後，都是錨部分，他的作用是跳轉到本頁面的子目錄下，不載入新的頁面

6.Ajax：非同步載入，即url不變，經行操作後頁面發生變化，去看network里的XHR

7.json

import requests
import json

form = {
    'kw':'同'
}
url = 'https://fanyi.baidu.com/sug'
response = requests.post(url, data = form)

# json是一個包，函數loads的作用是輸入一個字元串，輸出這個json字元串的python類型數據

json_dict = json.loads(response.text)
print(response.text)
print("=" * 30)
print(json_dict)
translated = json_dict['data'][0]['v']
print("翻譯後的內容是：", translated)

8.去重

1、set的實現方式
通過hash函數和hash表實現的，（分而治之的思想）如10000 % 20把這些數分為20類
2、點陣圖
比如存100000個不重覆的數字，0-1000000之間，int形，一個int要占32bit,點陣圖即給10000位，數字0存在寫入1，不存在寫入0，以此類推
3、布隆過濾器
對於很多url,用hash函數對每個URL分組，對應一個數字，再根據這些數字做點陣圖

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

celery的介紹和使用

celery介紹 celery是一個非同步任務框架，它可以執行非同步任務、延遲任務、定時任務非同步任務框架簡述： 1）celery可以不依賴任何伺服器，通過自身命令，啟動服務(內部支持socket) 2）celery服務為為其他項目服務提供非同步解決任務需求的註：會有兩個服務同時運行，一個是項目服務，一 ...
1.2 基礎變數聲明

1.2 基礎變數聲明 /* 例1.2-1: 變數聲明 */ public class demo01 { public static void main(String[] args) { // 聲明類型標識符 = 類型量; // 聲明整數型 int integers = 1; // 聲明一個int( ...
Leetcode刷題第二周

2022-11-03 一、base標簽 1、作用：用於添加web項目的首碼。 2、放置位置：放置在head標簽內部，一般放在首行。 3、使用方式：<base href="/項目名稱/">，在html網頁中的其他（例如：圖片，超鏈接...）使用下相對路徑的前面將“./”去掉。因為它是指的是base 之 ...
Maven 聚合工程的創建

簡單場景舉例聚合工程創建示例說明：創建 Maven Project：表示創建 maven 項目，new Project 方式創建創建 Maven Module：表示創建 maven 項目，new Module 方式創建創建 SpringBoot Module：表示創建 SpringBoot ...
如何在proto3中用上golang對應的interface{}類型

作者:張富春(ahfuzhang)，轉載時請註明作者和引用鏈接，謝謝！ cnblogs博客 zhihu Github 公眾號:一本正經的瞎扯首先，我希望所有golang中用於http請求響應的結構，都使用proto3來定義。麻煩的是，有的情況下某個欄位的類型可能是動態的，對應的JSON類型可能是 ...
重溫Python基礎——變數

哈嘍兄弟們，今天我們來複習下變數。首先嘗試在一個hello_world.py文件中使用變數，在文件開頭添加一行代碼，並對第二行代碼進行修改，如下所示: message="hello world" print(message) # Python源碼/教程領取扣君羊：279199867 運行這個程式， ...
02 ES(Elasticsearch)查詢設計

一.subprocess模塊 subprocess是Python 2.4中新增的一個模塊，它允許你生成新的進程，連接到它們的 input/output/error 管道，並獲取它們的返回（狀態）碼。這個模塊的目的在於替換幾個舊的模塊和方法，如： os.system os.spawn* 1.subpr ...
你寫過哪些實用的Python代碼？

Python這門語言很適合用來寫些實用的小腳本，跑個自動化、爬蟲、演算法什麼的，非常方便。這也是很多人學習Python的樂趣所在，可能只需要花個禮拜入門語法，就能用第三方庫去解決實際問題。我在Github上就看到過不少Python代碼的項目，幾十行代碼就能實現一個場景功能，非常實用。比方說倉庫Py ...