Python教程：常用網頁字元串處理技巧

-Advertisement-

首先一些Python字元串處理的簡易常用的用法。其他的以後用到再補充。 1.去掉重覆空格 s = "hello hello hello" s = ' '.join(s.split()) 2.去掉所有回車（或其他字元或字元串） s = "hello\nhello\nhello hello\n" pri ...

首先一些Python字元串處理的簡易常用的用法。其他的以後用到再補充。

1.去掉重覆空格

s = "hello   hello   hello"
s = ' '.join(s.split())

2.去掉所有回車（或其他字元或字元串）

s = "hello\nhello\nhello hello\n"
print(s)
s = s.replace("\n","")
print(s)

3.查找字元串首次出現的位置（沒有返回-1）

s = "hello\nhello\nhello hello\n"
print(s.find('\n'))
print(s.find('la'))

4.查找字元串從後往前找首次出現的位置（沒有返回-1）

s = "hello\nhello\nhello hello\n"
print(s.rfind('\n'))
print(s.rfind('la'))

5.將字元串轉化成列表list

s = "hello\nhello\nhello hello\n"
print(list(s))

6.查找所有匹配的子串

import re

s = "hello\nhello\nhello hello\n"
print(re.findall('hello',s)) # hello也可以換成正則表達式

然後是網頁字元串處理的高端用法：（綜合運用requests模塊，beautifulsoup模塊，re模塊等）

1.requests獲取一個鏈接的內容並原封不動寫入文件

import requests

r = requests.get('https://baike.baidu.com')
with open('test.html', 'wb') as fd:
    for chunk in r.iter_content(100):
        fd.write(chunk)

2.讀取一個文件的所有內容存到一個字元串里

# encoding : utf-8

with open('test.html','r',encoding='utf-8') as f:
    content = f.readlines()
content = ''.join(content)
# content = content.replace('\n','') # 如果想去掉回車可以加上這行
print(content)

3.把網頁字元串用BeautifulSoup存起來處理

from bs4 import BeautifulSoup

soup = BeautifulSoup(content,'html.parser')
print(soup.prettify())

4.存到BeautifulSoup里之後這個字元串就可以任你擺佈了，比如：提取出所有標簽

'''
學習中遇到問題沒人解答？小編創建了一個Python學習交流群：857662006
尋找有志同道合的小伙伴，互幫互助,群里還有不錯的視頻學習教程和PDF電子書！
'''

soup = BeautifulSoup(content,'html.parser')
print(soup.find_all('a'))

或者提取出所有標簽和標簽

soup = BeautifulSoup(content,'html.parser') print(soup.find_all(['a','b']))

這些屬於beautifulsoup的內容了

5.多個關鍵字切分字元串

import re re.split('; |, ',str) >>> a='Beautiful, is; better*than\nugly' >>> import re >>> re.split('; |, |\*|\n',a) ['Beautiful', 'is', 'better', 'than', 'ugly']

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Java學習-第一部分-第一階段-第三節：運算符

運算符運算符介紹算數運算符運算符運算範例結果 + 正號 +7 7 - 負號 b=11; -b -11 + 加 9+9 18 - 減 10-8 2 * 乘 7*8 56 除 9/9 1 % 取模(取餘) 11%9 2 ++ 自增(前):先運算後取值自增(後):先取值後運算 a=2;b=a; ...
如何利用 RPA 實現自動化獲客?

大家好，我是二哥。前高級技術專家 & 增長黑客，現一枚愛折騰的小小創業者，專註於 RPA & SaaS 軟體這塊。這次給大家帶來如何利用 RPA 實現自動化獲客一、RPA 是什麼？難嗎？ RPA 對大家來說，可能挺陌生的，其實它很簡單。 Robotic Process Automation（簡稱 ...
java抽象類簡介說明

原文鏈接：http://www.zhoubotong.site/post/50.html defer語句用於延遲函數調用，每次會把一個函數壓入棧中，函數返回前再把延遲的函數取出並執行。延遲函數可以有參數：延遲函數的參數在defer語句出現時就已確定下來（傳值的就是當前值） return先賦值(對於 ...
Python雙人五子棋

這篇文章旨在介紹一個雙人的五子棋程式。再次重申，本人不擅長對代碼的可讀性進行優化，所以可能有些雜亂（在所難免）。先瞅一眼效果圖：請註意，這個棋子……是這麼圓潤立體！本程式不需任何素材圖片，完全用代碼繪製所需的圖像，因此這樣立體的棋子十分難能可貴。那麼，這究竟是如何做到的呢？別急，聽我慢慢道來。 ...
java內部類的簡介說明

學生試卷中的題目有要提交截圖的，也有要提交文件的，為了方便學生考試，允許單獨交或者嵌入Word中提交，那麼事後如何整理學生的答案？單獨提交的比較方便，直接掃描文件名匹配名字後放入指定文件夾即可。但是嵌入到Word中的圖片和文件怎麼提取出來呢？現有如下需求：提取出一個Word文檔中所有的圖片（png ...
Lambda入門--一篇就夠了

閱讀前註意本文所有代碼貼出來的目的是幫助大家理解，並非是要引導大家跟寫，許多環境問題文件問題沒有詳細說明，代碼也並不全面，達不到跟做的效果。建議直接閱讀全文即可，我在最後會給出詳細代碼地址，對源代碼細節更感興趣的同學可以下載參考。性能測試：使用日誌在c++中進行性能測試是令人頭疼的問題，我們往 ...
spring迴圈依賴上篇- spring整體啟動流程

很久沒有寫博客了, 感覺沒有學到讓我自己眼前一亮的東西,所以還在摸索當中; 不過最近在複習spring相關的內容, 特別是迴圈依賴這塊, 查詢了很多的資料, 比較有收穫, 就分享一下吧! 分為上下兩篇博客, 第一篇是複習一下spring的整體流程, 第二篇說一下迴圈依賴提前須知: 最好自己看過sp ...
Python代碼塊及輸入輸出

學習背景公司同事讓我提供一個簡單的 rpc 介面，然後他坐在我旁邊看著我寫，寫的過程中他不斷打斷我，比如我在代碼換行時，如果游標不在下一行行首或者這行的行尾，我就會先移動游標到行尾，再點擊回車進行換行，他這時候就會說，為什麼你不用快捷鍵直接換行，最後變成了他手把手教我如何更高效的用快捷鍵編程，之前 ...