網站爬蟲,主要是爬博客http://www.cnblogs.com/xxxx下的所有文章內容及標題,保存到data目錄下。具體如下: ...
網站爬蟲,主要是爬博客http://www.cnblogs.com/xxxx下的所有文章內容及標題,保存到data目錄下。具體如下:
import requests import re url = 'http://www.cnblogs.com/xxxx' def get_html(url): #打開url並獲取該url的所有html信息 html_content = requests.get(url).text #從html_conten所有的html信息中匹配到所有博客的超鏈接地址 href_list = re.findall(r'href=\"(.*)\"\>(.*)\<\/a\>', html_content) for line in href_list: #打開超鏈接地址 line_html = requests.get(line[0]) conten = line[1] line_content = line_html.text line_encoding = line_html.encoding print('文章標題:%s,文章編碼:%s'%(conten, line_encoding)) get_html(url)