Python教程:常用網頁字元串處理技巧

来源:https://www.cnblogs.com/djdjdj123/archive/2022/06/18/16388652.html
-Advertisement-
Play Games

首先一些Python字元串處理的簡易常用的用法。其他的以後用到再補充。 1.去掉重覆空格 s = "hello hello hello" s = ' '.join(s.split()) 2.去掉所有回車(或其他字元或字元串) s = "hello\nhello\nhello hello\n" pri ...


首先一些Python字元串處理的簡易常用的用法。其他的以後用到再補充。

1.去掉重覆空格

s = "hello   hello   hello"
s = ' '.join(s.split())

2.去掉所有回車(或其他字元或字元串)

s = "hello\nhello\nhello hello\n"
print(s)
s = s.replace("\n","")
print(s)

3.查找字元串首次出現的位置(沒有返回-1)

s = "hello\nhello\nhello hello\n"
print(s.find('\n'))
print(s.find('la'))

4.查找字元串從後往前找首次出現的位置(沒有返回-1)

s = "hello\nhello\nhello hello\n"
print(s.rfind('\n'))
print(s.rfind('la'))

5.將字元串轉化成列表list

s = "hello\nhello\nhello hello\n"
print(list(s))

6.查找所有匹配的子串

import re

s = "hello\nhello\nhello hello\n"
print(re.findall('hello',s)) # hello也可以換成正則表達式

然後是網頁字元串處理的高端用法:(綜合運用requests模塊,beautifulsoup模塊,re模塊等)

1.requests獲取一個鏈接的內容並原封不動寫入文件

import requests

r = requests.get('https://baike.baidu.com')
with open('test.html', 'wb') as fd:
    for chunk in r.iter_content(100):
        fd.write(chunk)

2.讀取一個文件的所有內容存到一個字元串里

# encoding : utf-8

with open('test.html','r',encoding='utf-8') as f:
    content = f.readlines()
content = ''.join(content)
# content = content.replace('\n','') # 如果想去掉回車可以加上這行
print(content)

3.把網頁字元串用BeautifulSoup存起來處理

from bs4 import BeautifulSoup

soup = BeautifulSoup(content,'html.parser')
print(soup.prettify())

4.存到BeautifulSoup里之後這個字元串就可以任你擺佈了,比如:提取出所有標簽

'''
學習中遇到問題沒人解答?小編創建了一個Python學習交流群:857662006
尋找有志同道合的小伙伴,互幫互助,群里還有不錯的視頻學習教程和PDF電子書!
'''

soup = BeautifulSoup(content,'html.parser')
print(soup.find_all('a'))

或者提取出所有標簽和標簽

soup = BeautifulSoup(content,'html.parser')
print(soup.find_all(['a','b']))

這些屬於beautifulsoup的內容了

5.多個關鍵字切分字元串

import re
re.split('; |, ',str)

>>> a='Beautiful, is; better*than\nugly'
>>> import re
>>> re.split('; |, |\*|\n',a)
['Beautiful', 'is', 'better', 'than', 'ugly']

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 運算符 運算符介紹 算數運算符 運算符 運算 範例 結果 + 正號 +7 7 - 負號 b=11; -b -11 + 加 9+9 18 - 減 10-8 2 * 乘 7*8 56 除 9/9 1 % 取模(取餘) 11%9 2 ++ 自增(前):先運算後取值自增(後):先取值後運算 a=2;b=a; ...
  • 大家好,我是二哥。前高級技術專家 & 增長黑客,現一枚愛折騰的小小創業者,專註於 RPA & SaaS 軟體這塊。這次給大家帶來如何利用 RPA 實現自動化獲客 一、RPA 是什麼?難嗎? RPA 對大家來說,可能挺陌生的,其實它很簡單。 Robotic Process Automation(簡稱 ...
  • 原文鏈接:http://www.zhoubotong.site/post/50.html defer語句用於延遲函數調用,每次會把一個函數壓入棧中,函數返回前再把延遲的函數取出並執行。延遲函數可以有參數: 延遲函數的參數在defer語句出現時就已確定下來(傳值的就是當前值) return先賦值(對於 ...
  • 這篇文章旨在介紹一個雙人的五子棋程式。再次重申,本人不擅長對代碼的可讀性進行優化,所以可能有些雜亂(在所難免)。 先瞅一眼效果圖: 請註意,這個棋子……是這麼圓潤立體!本程式不需任何素材圖片,完全用代碼繪製所需的圖像,因此這樣立體的棋子十分難能可貴。那麼,這究竟是如何做到的呢?別急,聽我慢慢道來。 ...
  • 學生試卷中的題目有要提交截圖的,也有要提交文件的,為了方便學生考試,允許單獨交或者嵌入Word中提交,那麼事後如何整理學生的答案?單獨提交的比較方便,直接掃描文件名匹配名字後放入指定文件夾即可。但是嵌入到Word中的圖片和文件怎麼提取出來呢? 現有如下需求:提取出一個Word文檔中所有的圖片(png ...
  • 閱讀前註意 本文所有代碼貼出來的目的是幫助大家理解,並非是要引導大家跟寫,許多環境問題文件問題沒有詳細說明,代碼也並不全面,達不到跟做的效果。建議直接閱讀全文即可,我在最後會給出詳細代碼地址,對源代碼細節更感興趣的同學可以下載參考。 性能測試:使用日誌 在c++中進行性能測試是令人頭疼的問題,我們往 ...
  • 很久沒有寫博客了, 感覺沒有學到讓我自己眼前一亮的東西,所以還在摸索當中; 不過最近在複習spring相關的內容, 特別是迴圈依賴這塊, 查詢了很多的資料, 比較有收穫, 就分享一下吧! 分為上下兩篇博客, 第一篇是複習一下spring的整體流程, 第二篇說一下迴圈依賴 提前須知: 最好自己看過sp ...
  • 學習背景 公司同事讓我提供一個簡單的 rpc 介面,然後他坐在我旁邊看著我寫,寫的過程中他不斷打斷我,比如我在代碼換行時,如果游標不在下一行行首或者這行的行尾,我就會先移動游標到行尾,再點擊回車進行換行,他這時候就會說,為什麼你不用快捷鍵直接換行,最後變成了他手把手教我如何更高效的用快捷鍵編程,之前 ...
一周排行
    -Advertisement-
    Play Games
  • 一、引言:什麼是 JSON JSON (Java Script Object Notation) 是一種很常用的數據格式,它常常用在 web 應用程式中。它可以表示結構化的數據。 下麵是常見的 JSON 文件結構 { "name": "Kamishiro Rize", "age": "22", "o ...
  • 前言 大家好,我是蝸牛,在上一篇中,我們介紹了不同版本的HTTP區別和發展背景,這篇文章我們來聊聊HTTP的缺點,HTTP缺點大致總結有以下三點: 通信使用明文(不加密),內容可能會被竊聽。 不驗證通信方的身份,因此有可能遭遇偽裝(客戶端和服務端都有可能) 無法證明報文的完整性,有可能會被篡改。 其 ...
  • resultMap處理欄位和屬性的映射關係 如果欄位名與實體類中的屬性名不一致,該如何處理映射關係? 第一種方法:為查詢的欄位設置別名,和屬性名保持一致 下麵是實體類中的屬性名: private Integer empId; private String empName; private Integ ...
  • 大家在看到這篇文章前,為了有一個舒適的c++IDE,一定感受到了Dev-c++的廉價感,Clion功能的多餘,VS的臃腫。他們也有自己的優點,但糟點太多,令人十分難受。而VS Code,可以取長補短。下麵的配置內容,可以讓你在刷題時,享受絲滑的動畫,體會集成終端的方便,讓你覺得Coding不再枯燥。 ...
  • 給定一個不含重覆數字的數組 nums ,返回其 所有可能的全排列 。你可以 按任意順序 返回答案。 示例 1: 輸入:nums = [1,2,3] 輸出:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]] 示例 2: 輸入:nums = [0,1] 輸 ...
  • 設計模式的目的 編寫軟體過程中,程式員面臨著來自 耦合性,內聚性以及可維護性,可擴展性,重用性,靈活性 等多方面的 挑戰,設計模式是為了讓程式(軟體),具有更好 代碼重用性 (即:相同功能的代碼,不用多次編寫) 可讀性 (即:編程規範性, 便於其他程式員的閱讀和理解) 可擴展性 (即:當需要增加新的 ...
  • 本文講解了決策樹的創鍵的過程,包括熵,信息增益的計算,還有決策樹的創建,以及使用matplotlib讓決策樹可視化的詳細過程 ...
  • ♠ use C++11 倍數 若 $a,b,k \in \mathbb N$,且 $a \times k=b$,那麼 $b$ 是 $a$ 的倍數,稱 $a$ 整除 $b$,記作 $a \mid b$。 $[1,n]\in \mathbb N$ 中 $x \in \mathbb N$ 的倍數有 $\l ...
  • LinkList可以定義指向List的指針 1.當函數參數為LinkList L時,意味著只改變或操作List的內容,而不需要改變L這個指針 如 Status GetElem(LinkList L,int i,ElemType) 2.當參數為LinkList &L時,意味著需要改變或操作L這個指針本 ...
  • Spring 5框架 一、Spring概念 1、Spring是輕量級的JavaEE框架 2、Spring可以解決企業應用開發的複雜性 3、Spring有兩個核心部分:IOC和AOP ​ 1)IOC:控制反轉,把創建對象過程交給Spring進行管理 ​ 2)AOP:面向切麵,不修改源代碼進行功能增強 ...