Python 爬蟲 (一)

来源:https://www.cnblogs.com/pantom0122/archive/2018/08/13/9471189.html
-Advertisement-
Play Games

爬: 爬一個網站需要幾步? 確定用戶的需求 根據需求,尋找網址 讀取網頁 urllib requests 定位並提取數據 存儲數據 mysql redis 文件存儲 爬取百度首頁:(確定用戶需求) cookie和session之間的愛情故事: 啥是cookie: 當你在瀏覽網站的時候,WEB 伺服器 ...


爬:

爬一個網站需要幾步?

  1. 確定用戶的需求

  2. 根據需求,尋找網址

  3. 讀取網頁

    1. urllib requests

  4. 定位並提取數據

    1.  正則 xpath
  5. 存儲數據

    1. mysql

    2. redis

    3. 文件存儲

 

爬取百度首頁:(確定用戶需求)

from urllib import request
url = 'http://www.baidu.com'#確定網頁
response = request.urlopen(url)#打開網頁
html = response.read()#讀取網頁內容
with open('baidu.html','wb') as f:#將內容存儲到本地
f.write(html)

 

 

 

cookie和session之間的愛情故事:

啥是cookie:

當你在瀏覽網站的時候,WEB 伺服器會先送一小小資料放在你的電腦上,Cookie 會幫你在網站上所打的文字或是一些選擇,都紀錄下來。當下次你再光臨同一個網站,WEB 伺服器會先看看有沒有它上次留下的 Cookie 資料,有的話,就會依據 Cookie,里的內容來判斷使用者,送出特定的網頁內容給你。

cookie機制:

正統的cookie分發是通過擴展HTTP協議來實現的,伺服器通過在HTTP的響應頭中加上一行特殊的指示以提示瀏覽器按照指示生成相應的cookie。然而純粹的客戶端腳本如JavaScript或者VBScript也可以生成cookie。而cookie的使用

是由瀏覽器按照一定的原則在後臺自動發送給伺服器的。瀏覽器檢查所有存儲的cookie,如果某個cookie所聲明的作用範圍,大於等於將要請求的資源所在的位置,則把該cookie附在請求資源的HTTP請求頭上發送給伺服器。

 

什麼是session:

當用戶在應用程式的 Web 頁之間跳轉時,存儲在 Session 對象中的變數將不會丟失,而是在整個用戶會話中一直存在下去。當用戶請求來自應用程式的 Web 頁時,如果該用戶還沒有會話,則 Web 伺服器將自動創建一個 Session 對象。當會話過期或被放棄後,伺服器將終止該會話。Session 對象最常見的一個用法就是存儲用戶的首選項。

session機制:

session機制是一種伺服器端的機制,伺服器使用一種類似於散列表的結構(也可能就是使用散列表)來保存信息。 

當程式需要為某個客戶端的請求創建一個session的時候,伺服器首先檢查這個客戶端的請求里是否已包含了一個session標識 - 稱為session id,如果已包含一個session id則說明以前已經為此客戶端創建過session,伺服器就按照session id把這個session檢索出來使用(如果檢索不到,可能會新建一個),如果客戶端請求不包含session id,則為此客戶端創建一個session並且生成一個與此session相關聯的session id,session id的值應該是一個既不會重覆,又不容易被找到規律以仿造的字元串,這個session id將被在本次響應中返回給客戶端保存

 

cookie和session機制之間的區別與聯繫

一家咖啡店有喝5杯咖啡免費贈一杯咖啡的優惠,然而一次性消費5杯咖啡的機會微乎其微,這時就需要某種方式來紀錄某位顧客的消費數量。想象一下其實也無外乎下麵的幾種方案: 
1、該店的店員很厲害,能記住每位顧客的消費數量,只要顧客一走進咖啡店,店員就知道該怎麼對待了。這種做法就是協議本身支持狀態。 
2、發給顧客一張卡片,上面記錄著消費的數量,一般還有個有效期限。每次消費時,如果顧客出示這張卡片,則此次消費就會與以前或以後的消費相聯繫起來。這種做法就是在客戶端保持狀態。 
3、發給顧客一張會員卡,除了卡號之外什麼信息也不紀錄,每次消費時,如果顧客出示該卡片,則店員在店裡的紀錄本上找到這個卡號對應的紀錄添加一些消費信息。這種做法就是在伺服器端保持狀態。

 

 

 

封裝請求網頁的兩種方法:post 和 get

 1 from urllib import request,parse
 2 from urllib.error import HTTPError,URLError
 3 
 4 
 5 def get(url,headers = None):
 6     return url_requests(url,headers=headers)
 7 def post(url,form,headers=None):
 8     return url_requests(url,form,headers=headers)
 9 
10 def url_requests(url,form = None,headers = None):
11     user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
12 
13     if headers == None:
14         headers = {
15             'User-Agent':user_agent
16         }
17     html_b = b''
18 
19     try:
20         #post請求
21         if form:
22 
23             #先用parse模塊將form轉為字元串
24             form_str = parse.urlencode(form)
25             # print(form_str)
26             #再將str轉換為bytes
27             form_b = form_str.encode('utf-8')
28             # print(form_b)
29             req = request.Request(url,data=form_b,headers=headers)
30         else:
31             req = request.Request(url,headers=headers)
32         response = request.urlopen(req)
33         html_b = response.read()
34     except HTTPError as e:
35         print(e)
36     except URLError as e:
37         print(e)
38     return html_b
39 
40 if __name__ == '__main__':
41     url = 'http://fanyi.baidu.com/sug'
42     form = {
43         'kw': '哈哈'
44     }
45     html_bytes = post(url, form=form).decode('utf-8')
46     print(html_bytes)
47 
48 
49     # url = 'http://www.baidu.com'
50     # html_byte = get(url).decode('utf-8')
51     # print(html_byte)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、添加元素 (1)列表末尾添加 x=[1,2] x.append(3) >>>x=[1,2,3] (2)列表中插入 x=[1,2] x.insert(1,5)# 在索引1處添加空間, 並將值5 存儲到這個地方 >>>x=[1,5,2] 2、刪除元素 (1)del語句刪除 x=[1,2,3] del ...
  • 基於廖雪峰的python零基礎學習後,自我總結。適用於有一定基礎的編程人員,對我而言,則是基於.net已有方面,通過學習,記錄自我覺得有用的地方,便於後續回顧。 主要以快速定位內容,通過直觀代碼輸入輸出結果,展示獨有的特性,更直觀表現,而不拘禁於理論描述。待以後使用中遇到坑,再來詳細闡述。 本章包含 ...
  • #include /* 二分查找條件: 1、有序序列 2、數據在數組中 */ int baseBinarySearch(int a[],int h,int k) { int low=0; int high=h; int mid =0; int NoFound = -1; while (low a[m... ...
  • vue的開發環境的搭建 不管什麼軟體我們都要去官網下載安裝,這是作為專業程式員的安全意識。 1、安裝node.js 官方下載的頁面:點擊這裡 大約展示的頁面是這樣子的!我們演示是windows 64位的安裝 關於版本的選擇,作為開發我們最好還是用已經比較穩定的版本,這樣話就算遇到坑,解決的問題的文檔 ...
  • 前言: 因為臨近金九銀十的面試旺季,所以大家都在為自己下半年的跳槽做最後的一搏,都在為想進自己理想的大廠而做最後的努力。下麵就來看看這位面試頭條的朋友在面試後的總結: 因為有白金內推所以8月13號下午就直接面了,一共三輪。面完一輪hr打電話告訴你過沒,過的話下一輪。有幸面了三面,最後hr讓我等消息, ...
  • 最近才知道, mysql從5.7版本開始,增加了新的欄位類型: json 所以在centos6.5上裝了個5.7版本作為平時測試用. 設計表的時候, 欄位類型直接選json 就像平常選varchar一樣. 插入數據的時候, 需要轉成JSON_OBJECT 以下腳本運行在python2.7 因為pyt ...
  • 代碼倉庫地址 一、介紹 Protobuf是Google旗下的一款平臺無關,語言無關,可擴展的序列化結構數據格式。所以很適合用做數據存儲和作為不同應用,不同語言之間相互通信的數據交換格式,只要實現相同的協議格式即同一proto文件被編譯成不同的語言版本,加入到各自的工程中去,這樣不同語言就可以解析其他 ...
  • 目錄: 一、函數和過程 二、再談談返回值 三、函數變數的作用域 四、課時19課後習題及答案 ****************** 一、函數和過程 ****************** Python嚴格來說,只有函數,沒有過程。此話怎講? 調用print(hello())之後列印了兩行字,第一行,我們 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...