前言 以博客園為例,爬取我的博客上首頁的發佈時間、標題、摘要,本篇先小試牛刀,先瞭解下它的強大之處,後面講beautifulsoup4的詳細功能。 一、安裝 1.打開cmd用pip線上安裝beautifulsoup4 >pip install beautifulsoup4 &nb ...
前言
以博客園為例,爬取我的博客上首頁的發佈時間、標題、摘要,本篇先小試牛刀,先瞭解下它的強大之處,後面講beautifulsoup4的詳細功能。
一、安裝
1.打開cmd用pip線上安裝beautifulsoup4
>pip install beautifulsoup4
二、解析器
1.我們主要用第一個html.parser,這個是python的標準庫,可以直接用。其它幾個需要安裝對應解析器,
下表列出了主要的解析器,以及它們的優缺點:
三、列印首頁博客的時間
1.這裡直接定位不好定位到,可以先定位它的父元素:class="dayTitle"