Python教程:常用網頁字元串處理技巧

来源:https://www.cnblogs.com/djdjdj123/archive/2022/06/18/16388652.html
-Advertisement-
Play Games

首先一些Python字元串處理的簡易常用的用法。其他的以後用到再補充。 1.去掉重覆空格 s = "hello hello hello" s = ' '.join(s.split()) 2.去掉所有回車(或其他字元或字元串) s = "hello\nhello\nhello hello\n" pri ...


首先一些Python字元串處理的簡易常用的用法。其他的以後用到再補充。

1.去掉重覆空格

s = "hello   hello   hello"
s = ' '.join(s.split())

2.去掉所有回車(或其他字元或字元串)

s = "hello\nhello\nhello hello\n"
print(s)
s = s.replace("\n","")
print(s)

3.查找字元串首次出現的位置(沒有返回-1)

s = "hello\nhello\nhello hello\n"
print(s.find('\n'))
print(s.find('la'))

4.查找字元串從後往前找首次出現的位置(沒有返回-1)

s = "hello\nhello\nhello hello\n"
print(s.rfind('\n'))
print(s.rfind('la'))

5.將字元串轉化成列表list

s = "hello\nhello\nhello hello\n"
print(list(s))

6.查找所有匹配的子串

import re

s = "hello\nhello\nhello hello\n"
print(re.findall('hello',s)) # hello也可以換成正則表達式

然後是網頁字元串處理的高端用法:(綜合運用requests模塊,beautifulsoup模塊,re模塊等)

1.requests獲取一個鏈接的內容並原封不動寫入文件

import requests

r = requests.get('https://baike.baidu.com')
with open('test.html', 'wb') as fd:
    for chunk in r.iter_content(100):
        fd.write(chunk)

2.讀取一個文件的所有內容存到一個字元串里

# encoding : utf-8

with open('test.html','r',encoding='utf-8') as f:
    content = f.readlines()
content = ''.join(content)
# content = content.replace('\n','') # 如果想去掉回車可以加上這行
print(content)

3.把網頁字元串用BeautifulSoup存起來處理

from bs4 import BeautifulSoup

soup = BeautifulSoup(content,'html.parser')
print(soup.prettify())

4.存到BeautifulSoup里之後這個字元串就可以任你擺佈了,比如:提取出所有標簽

'''
學習中遇到問題沒人解答?小編創建了一個Python學習交流群:857662006
尋找有志同道合的小伙伴,互幫互助,群里還有不錯的視頻學習教程和PDF電子書!
'''

soup = BeautifulSoup(content,'html.parser')
print(soup.find_all('a'))

或者提取出所有標簽和標簽

soup = BeautifulSoup(content,'html.parser')
print(soup.find_all(['a','b']))

這些屬於beautifulsoup的內容了

5.多個關鍵字切分字元串

import re
re.split('; |, ',str)

>>> a='Beautiful, is; better*than\nugly'
>>> import re
>>> re.split('; |, |\*|\n',a)
['Beautiful', 'is', 'better', 'than', 'ugly']

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 運算符 運算符介紹 算數運算符 運算符 運算 範例 結果 + 正號 +7 7 - 負號 b=11; -b -11 + 加 9+9 18 - 減 10-8 2 * 乘 7*8 56 除 9/9 1 % 取模(取餘) 11%9 2 ++ 自增(前):先運算後取值自增(後):先取值後運算 a=2;b=a; ...
  • 大家好,我是二哥。前高級技術專家 & 增長黑客,現一枚愛折騰的小小創業者,專註於 RPA & SaaS 軟體這塊。這次給大家帶來如何利用 RPA 實現自動化獲客 一、RPA 是什麼?難嗎? RPA 對大家來說,可能挺陌生的,其實它很簡單。 Robotic Process Automation(簡稱 ...
  • 原文鏈接:http://www.zhoubotong.site/post/50.html defer語句用於延遲函數調用,每次會把一個函數壓入棧中,函數返回前再把延遲的函數取出並執行。延遲函數可以有參數: 延遲函數的參數在defer語句出現時就已確定下來(傳值的就是當前值) return先賦值(對於 ...
  • 這篇文章旨在介紹一個雙人的五子棋程式。再次重申,本人不擅長對代碼的可讀性進行優化,所以可能有些雜亂(在所難免)。 先瞅一眼效果圖: 請註意,這個棋子……是這麼圓潤立體!本程式不需任何素材圖片,完全用代碼繪製所需的圖像,因此這樣立體的棋子十分難能可貴。那麼,這究竟是如何做到的呢?別急,聽我慢慢道來。 ...
  • 學生試卷中的題目有要提交截圖的,也有要提交文件的,為了方便學生考試,允許單獨交或者嵌入Word中提交,那麼事後如何整理學生的答案?單獨提交的比較方便,直接掃描文件名匹配名字後放入指定文件夾即可。但是嵌入到Word中的圖片和文件怎麼提取出來呢? 現有如下需求:提取出一個Word文檔中所有的圖片(png ...
  • 閱讀前註意 本文所有代碼貼出來的目的是幫助大家理解,並非是要引導大家跟寫,許多環境問題文件問題沒有詳細說明,代碼也並不全面,達不到跟做的效果。建議直接閱讀全文即可,我在最後會給出詳細代碼地址,對源代碼細節更感興趣的同學可以下載參考。 性能測試:使用日誌 在c++中進行性能測試是令人頭疼的問題,我們往 ...
  • 很久沒有寫博客了, 感覺沒有學到讓我自己眼前一亮的東西,所以還在摸索當中; 不過最近在複習spring相關的內容, 特別是迴圈依賴這塊, 查詢了很多的資料, 比較有收穫, 就分享一下吧! 分為上下兩篇博客, 第一篇是複習一下spring的整體流程, 第二篇說一下迴圈依賴 提前須知: 最好自己看過sp ...
  • 學習背景 公司同事讓我提供一個簡單的 rpc 介面,然後他坐在我旁邊看著我寫,寫的過程中他不斷打斷我,比如我在代碼換行時,如果游標不在下一行行首或者這行的行尾,我就會先移動游標到行尾,再點擊回車進行換行,他這時候就會說,為什麼你不用快捷鍵直接換行,最後變成了他手把手教我如何更高效的用快捷鍵編程,之前 ...
一周排行
    -Advertisement-
    Play Games
  • MQTTnet 是一個高性能的MQTT類庫,支持.NET Core和.NET Framework。 MQTTnet 原理: MQTTnet 是一個用於.NET的高性能MQTT類庫,實現了MQTT協議的各個層級,包括連接、會話、發佈/訂閱、QoS(服務質量)等。其原理涉及以下關鍵概念: MqttCli ...
  • 在WPF中,源屬性(Source Property)指的是提供數據的屬性,通常是數據模型或者其他控制項的屬性,而目標屬性(Target Property)則是數據綁定的目標,通常是綁定到控制項的屬性,例如TextBlock的Text屬性。數據綁定將源屬性的值自動更新到目標屬性中。 主要包含以下幾個事件: ...
  • async/await 是 C# 中非同步編程的關鍵特性,它使得非同步代碼編寫更為簡單和直觀。下麵深入詳細描述了 async/await 的使用場景、優點以及一些高級使用方法,並提供了相應的實例源代碼。 使用場景: I/O 操作: 非同步編程特別適用於涉及 I/O 操作(如文件讀寫、網路請求等)的場景。在 ...
  • 使用過office的visio軟體畫圖的小伙伴都知道,畫圖軟體分為兩部分,左側圖形庫,存放各種圖標,右側是一個畫布,將左側圖形庫的圖標控制項拖拽到右側畫布,就會生成一個新的控制項,並且可以自由拖動。那如何在WPF程式中,實現類似的功能呢?今天就以一個簡單的小例子,簡述如何在WPF中實現控制項的拖拽和拖動,... ...
  • 1、Blazor Hybrid簡介 Blazor Hybrid 使開發人員能夠將桌面和移動本機客戶端框架與 .NET 和 Blazor 結合使用。在 Blazor Hybrid 應用中,Razor 組件在設備上是本機運行的。 這些組件通過本地互操作通道呈現到嵌入式 Web 視圖控制項。 組件不在瀏覽器 ...
  • 除了內置的數據集,scikit-learn還提供了隨機樣本的生成器。通過這些生成器函數,可以生成具有特定特性和分佈的隨機數據集,以幫助進行機器學習演算法的研究、測試和比較。 目前,scikit-learn庫(v1.3.0版)中有20個不同的生成樣本的函數。本篇重點介紹其中幾個具有代表性的函數。 1. ...
  • 從0到1,手把手帶你開發截圖工具ScreenCap------002實現通過文件對話框,選擇合適的文件夾,自定義預設的圖片保存位置,簡單易學 ...
  • 每次談到容器的時候,除了Docker之外,都會說起 Kubernetes,那麼什麼是 Kubernetes呢?今天就來一起學快速入門一下 Kubernetes 吧!希望本文對您有所幫助。 Kubernetes,一種用於管理和自動化雲中容器化工作負載的工具。 想象一下你有一個管弦樂隊,將每個音樂家視為 ...
  • 目錄 基本說明 安裝 Nginx 部署 VUE 前端 部署 Django 後端 Django admin 靜態文件(CSS,JS等)丟失的問題 總結 1. 基本說明 本文介紹了在 windows 伺服器下,通過 Nginx 部署 VUE + Django 前後端分離項目。本項目前端運行在 80 埠 ...
  • 從0到1,手把手帶你開發截圖工具ScreenCap------003實現最小化程式到托盤運行,- 為了方便截圖乾凈,實現最小化程式到托盤運行,簡潔,勿擾,實現最小化程式到托盤運行, 實現托盤菜單功能,實現回顯主窗體, 實現托盤開始截屏, 實現氣泡信息提示,實現托盤程式提示,實現托盤退出程式, 封裝完... ...