Python學習筆記(八)—使用正則獲取網頁中所需要的信息。

来源:https://www.cnblogs.com/fqxtony/archive/2018/01/29/8373511.html
-Advertisement-
Play Games

使用正則表達式的幾個步驟: 1、用import re 導入正則表達式模塊; 2、用re.compile()函數創建一個Regex對象; 3、用Regex對象的search()或findall()方法,傳入想要查找的字元串,返回一個Match對象; 4、調用Match對象的group()方法,返回匹配 ...


使用正則表達式的幾個步驟:

1、用import re 導入正則表達式模塊;

2、用re.compile()函數創建一個Regex對象;

3、用Regex對象的search()或findall()方法,傳入想要查找的字元串,返回一個Match對象;

4、調用Match對象的group()方法,返回匹配到的字元串。

在互動式環境中簡單嘗試一下,查詢字元串中的固話:

1 import re
2 text = '小明家的固話是0755-123456,而小麗家的固話時0789-654321,小王家的電話是123456789'#用於檢測的字元串
3 
4 ph_re = re.compile(r'\d{4}?-\d+') #創建Regex對象,匹配幾種電話的方式,\d表示0-9的數字,{4}表示前面的匹配4次,?表示可選,+表示出現1次或多次。
5 matchs1 = ph_re.findall(text) #findall()表示查找所有匹配項,返回一個字元串
6 matchs2 = ph_re.search(text)#search(),查找第一次匹配的文本,返回一個對象。
7 print(matchs1)
8 print(matchs2)
9 matchs2.group()

返回的結果,是這樣的:

findall()方法返回的是一個字元串,可以直接列印出來。而search()方法返回的是一個對象,所以列印出來的是是如圖的第二行。

調用group(),對象返回匹配的結果。

最後,小王的電話之所以沒有匹配到,是因為'-'沒有進行可選即在其後加上‘?’。

下麵進行一個小的實驗,獲取某個網頁中所有的http/https網址,並計算有多少個。

首先是獲取HTML文件。這裡要用到requests模塊。

 1 # -*- coding: utf-8 -*-
 2 import requests
 3 import re
 4 
 5 
 6 def get_html(url):
 7     res = requests.get(url)
 8     res.encoding = 'utf-8'
 9     html = res.text
10     return html

這裡get_html函數返回的,其實就類似上面例子中的text,用來匹配的文本。

然後,創建正則表達式:

 1 def get_addr(response):
 2     addr_regex = re.compile(r'''(
 3         (http://|https://)?  #http/https
 4         (www)?
 5         (\.[a-z1-9A-Z]+)
 6         (\.com|\.cn)
 7         )''',re.VERBOSE)#匹配網址,
 8     matchs = []
 9     for groups in addr_regex.findall(response):
10         matchs.append(groups[0])
11     if len(matchs) == 0:
12         print('沒有網址')     
13     return matchs

這裡向re.compile(),傳入變數re.VERBOSE,作為第二個參數,可以將正則表達式放在多行,併進行註釋,如上。

返回一個matchs列表對象。

再來個啟動函數。

1 def start():
2     url = 'http://news.163.com/18/0127/18/D966K4CO0001899N.html'
3     a = get_html(url)
4     b = get_addr(a)
5     print('\n'.join(b))
6     print(str(len(b)))
7     print('ok')
8 if __name__ == '__main__':
9     start()

這裡傳入的url是我隨意找的一個新聞鏈接。

然後調用get_html()和get_addr(),就得到了想要的東西。str(len(b)),為統計的數量。

測試的結果是類似這樣的:

 

  這裡似乎獲取一些URL,沒什麼卵用。。。但是,如果結合前面的查詢新聞列表的方式,獲取批量url,

而創建的正則是xxx.jpg,然後調用os模塊,os.mkdir(folder)、os.chdir(folder),將獲取到的匹配結果寫入文件,放入某個文件夾。

那麼就可以實現,從某些網站上批量獲取jpg圖片,然後存入某個文件夾的爬蟲功能。實測,可行!

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • A代碼編輯器,線上模版編輯,仿開發工具編輯器,pdf線上預覽,文件轉換編碼 B 集成代碼生成器 [正反雙向](單表、主表、明細表、樹形表,快速開發利器)+快速表單構建器 freemaker模版技術 ,0個代碼不用寫,生成完整的一個模塊,帶頁面、建表sql腳本,處理類,service等完整模塊 C 集 ...
  • 前文涉及到了很多與Leader相關的演算法,大家有木有想過,王侯將相,寧有種乎,既然Leader這麼麻煩,乾脆還是採用P2P模型吧,來個大家平等的架構。本篇需要和大家探討的就是多副本下實現民主政治的 Quorum機制 。至於它是怎麼樣解決我們在前文提及的各種問題的,接著這篇文章我們繼續聊聊~~ 1. ...
  • Redis的使用難嗎?不難,Redis用好容易嗎?不容易。Redis的使用雖然不難,但與業務結合的應用場景特別多、特別緊,用好並不容易。我們希望通過一篇文章及Demo,即可輕鬆、快速入門並學會應用。 一、Redis 簡介 Redis是一個開源的Key-Value存儲,但又不僅僅是Key-Value存 ...
  • server下的方法:bind() , listen(), accept(), recv(), send(bytes(String)), sendall(), client的方法:connect(), recv(), send(), sendall()### 建立通信的過程:創建socket,綁定i ...
  • 這個消息比較實用也很關鍵,它代表非顯示區域命中測試。這個消息優先於所有其他的顯示區域和非顯示區域滑鼠消息。其中lParam參數含有滑鼠位置的x和y屏幕坐標,wParam 這裡沒有用。 Windows應用程式通常把這個消息傳送給DefWindowProc,然後Windows用WM_NCHITTEST消 ...
  • 1、connect描述:實例連接到一個Redis.參數:host: string,port: int返回值:BOOL 成功返回:TRUE;失敗返回:FALSE示例:$redis = new redis(); $result = $redis->connect('127.0.0.1', 6379); ...
  • 因為每個枚舉常量只有一個實例,所以如果在比較兩個參考值,至少有一個涉及到枚舉常量時,允許使用“==”代替equals() ...
  • 作者: "nnngu" 項目源代碼:https://github.com/nnngu/nguSeckill 首先在編寫 層代碼前,我們應該首先要知道這一層到底是乾什麼的。 層主要負責業務模塊的邏輯應用設計。同樣是首先設計介面,再設計其實現的類,接著在 的配置文件中配置其實現的關聯。這樣我們就可以在應 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...