Python 爬蟲 (一)_ZenDei技術網路在線

Python 爬蟲 (一)

-Advertisement-

爬: 爬一個網站需要幾步? 確定用戶的需求根據需求,尋找網址讀取網頁 urllib requests 定位並提取數據存儲數據 mysql redis 文件存儲爬取百度首頁:(確定用戶需求) cookie和session之間的愛情故事: 啥是cookie: 當你在瀏覽網站的時候，WEB 伺服器 ...

爬:

爬一個網站需要幾步?

確定用戶的需求
根據需求,尋找網址
讀取網頁
1. urllib requests
定位並提取數據
1. 正則 xpath
存儲數據

mysql
redis
文件存儲

爬取百度首頁:(確定用戶需求)

from urllib import request
url = 'http://www.baidu.com'#確定網頁
response = request.urlopen(url)#打開網頁
html = response.read()#讀取網頁內容
with open('baidu.html','wb') as f:#將內容存儲到本地
    f.write(html)

cookie和session之間的愛情故事:

啥是cookie:

當你在瀏覽網站的時候，WEB 伺服器會先送一小小資料放在你的電腦上，Cookie 會幫你在網站上所打的文字或是一些選擇，都紀錄下來。當下次你再光臨同一個網站，WEB 伺服器會先看看有沒有它上次留下的 Cookie 資料，有的話，就會依據 Cookie,里的內容來判斷使用者，送出特定的網頁內容給你。

cookie機制:

正統的cookie分發是通過擴展HTTP協議來實現的，伺服器通過在HTTP的響應頭中加上一行特殊的指示以提示瀏覽器按照指示生成相應的cookie。然而純粹的客戶端腳本如JavaScript或者VBScript也可以生成cookie。而cookie的使用

是由瀏覽器按照一定的原則在後臺自動發送給伺服器的。瀏覽器檢查所有存儲的cookie，如果某個cookie所聲明的作用範圍,大於等於將要請求的資源所在的位置，則把該cookie附在請求資源的HTTP請求頭上發送給伺服器。

什麼是session:

當用戶在應用程式的 Web 頁之間跳轉時，存儲在 Session 對象中的變數將不會丟失，而是在整個用戶會話中一直存在下去。當用戶請求來自應用程式的 Web 頁時，如果該用戶還沒有會話，則 Web 伺服器將自動創建一個 Session 對象。當會話過期或被放棄後，伺服器將終止該會話。Session 對象最常見的一個用法就是存儲用戶的首選項。

session機制:

session機制是一種伺服器端的機制，伺服器使用一種類似於散列表的結構（也可能就是使用散列表）來保存信息。

當程式需要為某個客戶端的請求創建一個session的時候，伺服器首先檢查這個客戶端的請求里是否已包含了一個session標識 - 稱為session id，如果已包含一個session id則說明以前已經為此客戶端創建過session，伺服器就按照session id把這個session檢索出來使用（如果檢索不到，可能會新建一個），如果客戶端請求不包含session id，則為此客戶端創建一個session並且生成一個與此session相關聯的session id，session id的值應該是一個既不會重覆，又不容易被找到規律以仿造的字元串，這個session id將被在本次響應中返回給客戶端保存

cookie和session機制之間的區別與聯繫

一家咖啡店有喝5杯咖啡免費贈一杯咖啡的優惠，然而一次性消費5杯咖啡的機會微乎其微，這時就需要某種方式來紀錄某位顧客的消費數量。想象一下其實也無外乎下麵的幾種方案：
1、該店的店員很厲害，能記住每位顧客的消費數量，只要顧客一走進咖啡店，店員就知道該怎麼對待了。這種做法就是協議本身支持狀態。
2、發給顧客一張卡片，上面記錄著消費的數量，一般還有個有效期限。每次消費時，如果顧客出示這張卡片，則此次消費就會與以前或以後的消費相聯繫起來。這種做法就是在客戶端保持狀態。
3、發給顧客一張會員卡，除了卡號之外什麼信息也不紀錄，每次消費時，如果顧客出示該卡片，則店員在店裡的紀錄本上找到這個卡號對應的紀錄添加一些消費信息。這種做法就是在伺服器端保持狀態。

封裝請求網頁的兩種方法:post 和 get

 1 from urllib import request,parse
 2 from urllib.error import HTTPError,URLError
 3 
 4 
 5 def get(url,headers = None):
 6     return url_requests(url,headers=headers)
 7 def post(url,form,headers=None):
 8     return url_requests(url,form,headers=headers)
 9 
10 def url_requests(url,form = None,headers = None):
11     user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
12 
13     if headers == None:
14         headers = {
15             'User-Agent':user_agent
16         }
17     html_b = b''
18 
19     try:
20         #post請求
21         if form:
22 
23             #先用parse模塊將form轉為字元串
24             form_str = parse.urlencode(form)
25             # print(form_str)
26             #再將str轉換為bytes
27             form_b = form_str.encode('utf-8')
28             # print(form_b)
29             req = request.Request(url,data=form_b,headers=headers)
30         else:
31             req = request.Request(url,headers=headers)
32         response = request.urlopen(req)
33         html_b = response.read()
34     except HTTPError as e:
35         print(e)
36     except URLError as e:
37         print(e)
38     return html_b
39 
40 if __name__ == '__main__':
41     url = 'http://fanyi.baidu.com/sug'
42     form = {
43         'kw': '哈哈'
44     }
45     html_bytes = post(url, form=form).decode('utf-8')
46     print(html_bytes)
47 
48 
49     # url = 'http://www.baidu.com'
50     # html_byte = get(url).decode('utf-8')
51     # print(html_byte)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

列表操作

1、添加元素（1）列表末尾添加 x=[1,2] x.append(3) >>>x=[1,2,3] （2）列表中插入 x=[1,2] x.insert(1,5)# 在索引1處添加空間，並將值5 存儲到這個地方 >>>x=[1,5,2] 2、刪除元素（1）del語句刪除 x=[1,2,3] del ...
基於編程人員Python學習第一章節

基於廖雪峰的python零基礎學習後，自我總結。適用於有一定基礎的編程人員，對我而言，則是基於.net已有方面，通過學習，記錄自我覺得有用的地方，便於後續回顧。主要以快速定位內容，通過直觀代碼輸入輸出結果，展示獨有的特性，更直觀表現，而不拘禁於理論描述。待以後使用中遇到坑，再來詳細闡述。本章包含 ...
C語言二分查找

#include /* 二分查找條件: 1、有序序列 2、數據在數組中 */ int baseBinarySearch(int a[],int h,int k) { int low=0; int high=h; int mid =0; int NoFound = -1; while (low a[m... ...
vue的開發環境搭建命令加圖解

vue的開發環境的搭建不管什麼軟體我們都要去官網下載安裝，這是作為專業程式員的安全意識。 1、安裝node.js 官方下載的頁面：點擊這裡大約展示的頁面是這樣子的！我們演示是windows 64位的安裝關於版本的選擇，作為開發我們最好還是用已經比較穩定的版本，這樣話就算遇到坑，解決的問題的文檔 ...
頭條三面總結，面完精疲力盡

前言：因為臨近金九銀十的面試旺季，所以大家都在為自己下半年的跳槽做最後的一搏，都在為想進自己理想的大廠而做最後的努力。下麵就來看看這位面試頭條的朋友在面試後的總結：因為有白金內推所以8月13號下午就直接面了，一共三輪。面完一輪hr打電話告訴你過沒，過的話下一輪。有幸面了三面，最後hr讓我等消息， ...
關於MySQL5.7 這幾天的總結(json類型)

最近才知道, mysql從5.7版本開始,增加了新的欄位類型: json 所以在centos6.5上裝了個5.7版本作為平時測試用. 設計表的時候, 欄位類型直接選json 就像平常選varchar一樣. 插入數據的時候, 需要轉成JSON_OBJECT 以下腳本運行在python2.7 因為pyt ...
Golang語言下使用Protocol Buffer教程

代碼倉庫地址一、介紹 Protobuf是Google旗下的一款平臺無關，語言無關，可擴展的序列化結構數據格式。所以很適合用做數據存儲和作為不同應用，不同語言之間相互通信的數據交換格式，只要實現相同的協議格式即同一proto文件被編譯成不同的語言版本，加入到各自的工程中去，這樣不同語言就可以解析其他 ...
課時19：函數：我的地盤聽我的

目錄：一、函數和過程二、再談談返回值三、函數變數的作用域四、課時19課後習題及答案 ****************** 一、函數和過程 ****************** Python嚴格來說，只有函數，沒有過程。此話怎講？調用print（hello（））之後列印了兩行字，第一行，我們 ...