Python 爬蟲 (一)

来源:https://www.cnblogs.com/pantom0122/archive/2018/08/13/9471189.html
-Advertisement-
Play Games

爬: 爬一個網站需要幾步? 確定用戶的需求 根據需求,尋找網址 讀取網頁 urllib requests 定位並提取數據 存儲數據 mysql redis 文件存儲 爬取百度首頁:(確定用戶需求) cookie和session之間的愛情故事: 啥是cookie: 當你在瀏覽網站的時候,WEB 伺服器 ...


爬:

爬一個網站需要幾步?

  1. 確定用戶的需求

  2. 根據需求,尋找網址

  3. 讀取網頁

    1. urllib requests

  4. 定位並提取數據

    1.  正則 xpath
  5. 存儲數據

    1. mysql

    2. redis

    3. 文件存儲

 

爬取百度首頁:(確定用戶需求)

from urllib import request
url = 'http://www.baidu.com'#確定網頁
response = request.urlopen(url)#打開網頁
html = response.read()#讀取網頁內容
with open('baidu.html','wb') as f:#將內容存儲到本地
f.write(html)

 

 

 

cookie和session之間的愛情故事:

啥是cookie:

當你在瀏覽網站的時候,WEB 伺服器會先送一小小資料放在你的電腦上,Cookie 會幫你在網站上所打的文字或是一些選擇,都紀錄下來。當下次你再光臨同一個網站,WEB 伺服器會先看看有沒有它上次留下的 Cookie 資料,有的話,就會依據 Cookie,里的內容來判斷使用者,送出特定的網頁內容給你。

cookie機制:

正統的cookie分發是通過擴展HTTP協議來實現的,伺服器通過在HTTP的響應頭中加上一行特殊的指示以提示瀏覽器按照指示生成相應的cookie。然而純粹的客戶端腳本如JavaScript或者VBScript也可以生成cookie。而cookie的使用

是由瀏覽器按照一定的原則在後臺自動發送給伺服器的。瀏覽器檢查所有存儲的cookie,如果某個cookie所聲明的作用範圍,大於等於將要請求的資源所在的位置,則把該cookie附在請求資源的HTTP請求頭上發送給伺服器。

 

什麼是session:

當用戶在應用程式的 Web 頁之間跳轉時,存儲在 Session 對象中的變數將不會丟失,而是在整個用戶會話中一直存在下去。當用戶請求來自應用程式的 Web 頁時,如果該用戶還沒有會話,則 Web 伺服器將自動創建一個 Session 對象。當會話過期或被放棄後,伺服器將終止該會話。Session 對象最常見的一個用法就是存儲用戶的首選項。

session機制:

session機制是一種伺服器端的機制,伺服器使用一種類似於散列表的結構(也可能就是使用散列表)來保存信息。 

當程式需要為某個客戶端的請求創建一個session的時候,伺服器首先檢查這個客戶端的請求里是否已包含了一個session標識 - 稱為session id,如果已包含一個session id則說明以前已經為此客戶端創建過session,伺服器就按照session id把這個session檢索出來使用(如果檢索不到,可能會新建一個),如果客戶端請求不包含session id,則為此客戶端創建一個session並且生成一個與此session相關聯的session id,session id的值應該是一個既不會重覆,又不容易被找到規律以仿造的字元串,這個session id將被在本次響應中返回給客戶端保存

 

cookie和session機制之間的區別與聯繫

一家咖啡店有喝5杯咖啡免費贈一杯咖啡的優惠,然而一次性消費5杯咖啡的機會微乎其微,這時就需要某種方式來紀錄某位顧客的消費數量。想象一下其實也無外乎下麵的幾種方案: 
1、該店的店員很厲害,能記住每位顧客的消費數量,只要顧客一走進咖啡店,店員就知道該怎麼對待了。這種做法就是協議本身支持狀態。 
2、發給顧客一張卡片,上面記錄著消費的數量,一般還有個有效期限。每次消費時,如果顧客出示這張卡片,則此次消費就會與以前或以後的消費相聯繫起來。這種做法就是在客戶端保持狀態。 
3、發給顧客一張會員卡,除了卡號之外什麼信息也不紀錄,每次消費時,如果顧客出示該卡片,則店員在店裡的紀錄本上找到這個卡號對應的紀錄添加一些消費信息。這種做法就是在伺服器端保持狀態。

 

 

 

封裝請求網頁的兩種方法:post 和 get

 1 from urllib import request,parse
 2 from urllib.error import HTTPError,URLError
 3 
 4 
 5 def get(url,headers = None):
 6     return url_requests(url,headers=headers)
 7 def post(url,form,headers=None):
 8     return url_requests(url,form,headers=headers)
 9 
10 def url_requests(url,form = None,headers = None):
11     user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
12 
13     if headers == None:
14         headers = {
15             'User-Agent':user_agent
16         }
17     html_b = b''
18 
19     try:
20         #post請求
21         if form:
22 
23             #先用parse模塊將form轉為字元串
24             form_str = parse.urlencode(form)
25             # print(form_str)
26             #再將str轉換為bytes
27             form_b = form_str.encode('utf-8')
28             # print(form_b)
29             req = request.Request(url,data=form_b,headers=headers)
30         else:
31             req = request.Request(url,headers=headers)
32         response = request.urlopen(req)
33         html_b = response.read()
34     except HTTPError as e:
35         print(e)
36     except URLError as e:
37         print(e)
38     return html_b
39 
40 if __name__ == '__main__':
41     url = 'http://fanyi.baidu.com/sug'
42     form = {
43         'kw': '哈哈'
44     }
45     html_bytes = post(url, form=form).decode('utf-8')
46     print(html_bytes)
47 
48 
49     # url = 'http://www.baidu.com'
50     # html_byte = get(url).decode('utf-8')
51     # print(html_byte)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、添加元素 (1)列表末尾添加 x=[1,2] x.append(3) >>>x=[1,2,3] (2)列表中插入 x=[1,2] x.insert(1,5)# 在索引1處添加空間, 並將值5 存儲到這個地方 >>>x=[1,5,2] 2、刪除元素 (1)del語句刪除 x=[1,2,3] del ...
  • 基於廖雪峰的python零基礎學習後,自我總結。適用於有一定基礎的編程人員,對我而言,則是基於.net已有方面,通過學習,記錄自我覺得有用的地方,便於後續回顧。 主要以快速定位內容,通過直觀代碼輸入輸出結果,展示獨有的特性,更直觀表現,而不拘禁於理論描述。待以後使用中遇到坑,再來詳細闡述。 本章包含 ...
  • #include /* 二分查找條件: 1、有序序列 2、數據在數組中 */ int baseBinarySearch(int a[],int h,int k) { int low=0; int high=h; int mid =0; int NoFound = -1; while (low a[m... ...
  • vue的開發環境的搭建 不管什麼軟體我們都要去官網下載安裝,這是作為專業程式員的安全意識。 1、安裝node.js 官方下載的頁面:點擊這裡 大約展示的頁面是這樣子的!我們演示是windows 64位的安裝 關於版本的選擇,作為開發我們最好還是用已經比較穩定的版本,這樣話就算遇到坑,解決的問題的文檔 ...
  • 前言: 因為臨近金九銀十的面試旺季,所以大家都在為自己下半年的跳槽做最後的一搏,都在為想進自己理想的大廠而做最後的努力。下麵就來看看這位面試頭條的朋友在面試後的總結: 因為有白金內推所以8月13號下午就直接面了,一共三輪。面完一輪hr打電話告訴你過沒,過的話下一輪。有幸面了三面,最後hr讓我等消息, ...
  • 最近才知道, mysql從5.7版本開始,增加了新的欄位類型: json 所以在centos6.5上裝了個5.7版本作為平時測試用. 設計表的時候, 欄位類型直接選json 就像平常選varchar一樣. 插入數據的時候, 需要轉成JSON_OBJECT 以下腳本運行在python2.7 因為pyt ...
  • 代碼倉庫地址 一、介紹 Protobuf是Google旗下的一款平臺無關,語言無關,可擴展的序列化結構數據格式。所以很適合用做數據存儲和作為不同應用,不同語言之間相互通信的數據交換格式,只要實現相同的協議格式即同一proto文件被編譯成不同的語言版本,加入到各自的工程中去,這樣不同語言就可以解析其他 ...
  • 目錄: 一、函數和過程 二、再談談返回值 三、函數變數的作用域 四、課時19課後習題及答案 ****************** 一、函數和過程 ****************** Python嚴格來說,只有函數,沒有過程。此話怎講? 調用print(hello())之後列印了兩行字,第一行,我們 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...