首先一些Python字元串處理的簡易常用的用法。其他的以後用到再補充。 1.去掉重覆空格 s = "hello hello hello" s = ' '.join(s.split()) 2.去掉所有回車(或其他字元或字元串) s = "hello\nhello\nhello hello\n" pri ...
首先一些Python字元串處理的簡易常用的用法。其他的以後用到再補充。
1.去掉重覆空格
s = "hello hello hello"
s = ' '.join(s.split())
2.去掉所有回車(或其他字元或字元串)
s = "hello\nhello\nhello hello\n"
print(s)
s = s.replace("\n","")
print(s)
3.查找字元串首次出現的位置(沒有返回-1)
s = "hello\nhello\nhello hello\n"
print(s.find('\n'))
print(s.find('la'))
4.查找字元串從後往前找首次出現的位置(沒有返回-1)
s = "hello\nhello\nhello hello\n"
print(s.rfind('\n'))
print(s.rfind('la'))
5.將字元串轉化成列表list
s = "hello\nhello\nhello hello\n"
print(list(s))
6.查找所有匹配的子串
import re
s = "hello\nhello\nhello hello\n"
print(re.findall('hello',s)) # hello也可以換成正則表達式
然後是網頁字元串處理的高端用法:(綜合運用requests模塊,beautifulsoup模塊,re模塊等)
1.requests獲取一個鏈接的內容並原封不動寫入文件
import requests
r = requests.get('https://baike.baidu.com')
with open('test.html', 'wb') as fd:
for chunk in r.iter_content(100):
fd.write(chunk)
2.讀取一個文件的所有內容存到一個字元串里
# encoding : utf-8
with open('test.html','r',encoding='utf-8') as f:
content = f.readlines()
content = ''.join(content)
# content = content.replace('\n','') # 如果想去掉回車可以加上這行
print(content)
3.把網頁字元串用BeautifulSoup存起來處理
from bs4 import BeautifulSoup
soup = BeautifulSoup(content,'html.parser')
print(soup.prettify())
4.存到BeautifulSoup里之後這個字元串就可以任你擺佈了,比如:提取出所有標簽
'''
學習中遇到問題沒人解答?小編創建了一個Python學習交流群:857662006
尋找有志同道合的小伙伴,互幫互助,群里還有不錯的視頻學習教程和PDF電子書!
'''
soup = BeautifulSoup(content,'html.parser')
print(soup.find_all('a'))
soup = BeautifulSoup(content,'html.parser')
print(soup.find_all(['a','b']))
這些屬於beautifulsoup的內容了
5.多個關鍵字切分字元串
import re
re.split('; |, ',str)
>>> a='Beautiful, is; better*than\nugly'
>>> import re
>>> re.split('; |, |\*|\n',a)
['Beautiful', 'is', 'better', 'than', 'ugly']