關於html的多行匹配，正則re.S的使用（爬取豆瓣電影短評）

-Advertisement-

參考鏈接：http://www.python(tab).com/html/2017/pythonhexinbiancheng_0904/1170.html(去除括弧) http://blog.csdn.net/eastmount/article/details/51082253 首先本文參考了上述兩 ...

參考鏈接：http://www.python(tab).com/html/2017/pythonhexinbiancheng_0904/1170.html(去除括弧)

　　　　 http://blog.csdn.net/eastmount/article/details/51082253

首先本文參考了上述兩篇文章，爬取豆瓣電影欄目上“看不見的客人短評”，並將其導入cvs。

關於正則匹配多行html，實際上需要在原有基礎上加入re.S。

這樣，每行行末尾將通過“\n+空格”的形式呈現出來。

而實際上匹配可以通過.*?直接過濾掉。

詳情可看第13行。

另說python的pandas模塊，使用DataFrame的to_cvs導入還需要進行編碼轉換，避免亂碼。

 1 #coding=utf-8
 2 import requests
 3 import re
 4 import pandas as pd
 5 headers={
 6     'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
 7     'Host':'movie.douban.com'
 8     }
 9 cookies={'Cookie':'你自己的COOKIE'}
10 url='https://movie.douban.com/subject/26580232/comments?status=P'
11 html=requests.get(url,headers=headers,cookies=cookies)
12 reg=re.compile(r'<a href="(.*?)&amp;status=P".*?class="next">')
13 ren=re.compile(r'<span class="comment-info">.*? class="">(.*?)</a>.*?<span>.*?title="(.*?)"></span>.*?<span.*? title="(.*?)">.*?<p class="">(.*?)\n',re.S)
14 while html.status_code==200:
15     url_next='https://movie.douban.com/subject/26580232/comments'+re.findall(reg,html.text)[0]
16     keren=re.findall(ren,html.text)
17     data=pd.DataFrame(keren)
18     print(data)
19     print(url_next)
20     data.to_csv('/Users/b1ancheng/Desktop/kerenduanping.csv',header=False,index=False, mode='a+',encoding="utf_8_sig")
21     data=[]
22     keren=[]
23     html=requests.get(url_next,headers=headers,cookies=cookies)

望兄多提意見，共同進步。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

struts中用kindeditor實現的圖片上傳並且顯示在頁面上

做公司網站的時候由於需要在內容屬性中加入圖片，所以就有了這個問題，本來一開始找幾篇文章看都是講修改kindeditor/jsp/file_manager_json.jsp和upload_json.jsp，可我改了半天地址，還是沒改對，所以想到另一個方法，因為upload_json.jsp的主要功能就 ...
Python初接觸

今年Python突然變得很火，據說入門也簡單，耐不住好奇，開始了我的Python之路，在學習Python之前，我只有簡單的Java基礎，沒有其他的編程經驗，而且以前也沒寫過博客，如果在文中有任何錯誤或者不足的地方，希望諸位嘴下留情，給予指點，現在給自己定的小目標是寫一個爬蟲出來，。Go on，開始踏 ...
for迴圈套for迴圈

1、for迴圈套for迴圈，外面for每執行一次，裡面for執行10次，直到外面for執行完10次為止運行結果： 2、外面1-for執行10次（0~9），2-for大於5退出迴圈 ...
Set linux mq_queue size for user

設置調整mq_queue的size*num如果大於預設(POSIX message queues)，則需要調整系統限制和用戶限制，不然在mq_open是會報"Too many open files"的錯誤 1. man mq_overview命令可以瞭解到mq可以設置msg_max和msgsize_ ...
數據類型的強制轉換

1.在PHP開發種在很多的地方要涉及到數據類型的轉換，尤其是涉及到金額的數據類型，一定要轉換成float類型，否則在入庫的時候可能會因為數據類型的不同覆蓋掉之前的金額。（字元串和float類型相加） 2.數據類型的強制轉換：強制轉換成float類型。 ...
IDEA快捷鍵

maven repository :maven的依賴查詢Alt+回車導入包,自動修正Ctrl+N 查找類Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代碼Ctrl+Alt+O 優化導入的類和包Alt+Insert 生成代碼(如get,set方法,構造函數等)Ctrl+E或者Alt+ ...
Hibernate 學習筆記 - 2

昨天發佈了 Hibernate 學習筆記第一篇後，今天第二篇來襲~ 此篇筆記是 Hibernate 學習的重點和難點，包括 Hibernate 中的映射關聯關係、Hibernate 的檢索策略與檢索方式(HQL、QBC)、Hibernate 的二級緩存，還包括管理 Session ，如何使 Sess... ...
IntelliJ IDEA 快捷鍵

分類功能點 Eclipse快捷鍵 IDEA快捷鍵搜索搜索文本 Ctrl + F Ctrl + F Ctrl + R 查找替換 Alt + P/A 逐個/全部替換 Alt + F3 查找當前選中詞繼續搜索 Ctrl + K 向前 Ctrl + Shift + K 向後 F3 Shift + F ...