用正則表達式來提取網頁中的內容是相當麻煩的,這裡介紹一個可以從HTML或XML文件中提取數據的Python庫:Beautiful Soup.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.Beautiful Soup ...
用正則表達式來提取網頁中的內容是相當麻煩的,這裡介紹一個可以從HTML或XML文件中提取數據的Python庫:Beautiful Soup.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.Beautiful Soup 4.2.0 文檔
具體運用在官方文檔中已經講述的很清楚了,這裡就不再贅述。說一下我安裝時遇到的問題吧。
1.安裝python3
官網下載並安裝python3,加入Path變數,把安裝好的python.exe重命名為python3.exe
2.安裝pip3
輸入:>pip3
問題提示:Fatal error in launcher: Unable to create process using '"'
輸入:>python3 -m pip install --upgrade pip
問題提示:Requirement already up-to-date: pip in c:\users\****\appdata\local\programs\python\python36-32\lib\site-packages
輸入:>python3 -m pip install --upgrade pip --force-reinstall
輸出:
輸入:>pip3 -V
輸出:pip 9.0.1 from c:\users\****\appdata\local\programs\python\python36-32\lib\site-packages (python 3.6)
pip3安裝完成
3.安裝BeautifulSoup4
>pip3 install beautifulsoup4
如果要用源碼安裝,下載BS4的源碼 ,然後通過setup.py來安裝,
將下載的壓縮包解壓到本地,用命令轉換成Python3代碼:
進入Python的安裝目錄下的\Tools\scripts,裡面有2to3.py,用命令轉換
\Python36-32\Tools\scripts>python 2to3.py -w C:\Users\****\AppData\Local\Programs\Python\Python36-32\beautifulsoup4-4.6.0
用命令提示符進入到BS4的解壓的目錄,開始安裝:
>python setup.py install
4.安裝解析器:
>pip3 install lxml
>pip3 install html5lib
安裝完成啦!可以開始測試了。
現在網上有大量的BeautifulSoup3和Python2的代碼,對照給出的demo測試時會出現各種問題。建議學習新內容的時候直接參考官方文檔。