關於html的多行匹配,正則re.S的使用(爬取豆瓣電影短評)

来源:http://www.cnblogs.com/b1ancheng/archive/2017/10/17/7680282.html
-Advertisement-
Play Games

參考鏈接:http://www.python(tab).com/html/2017/pythonhexinbiancheng_0904/1170.html(去除括弧) http://blog.csdn.net/eastmount/article/details/51082253 首先本文參考了上述兩 ...


參考鏈接:http://www.python(tab).com/html/2017/pythonhexinbiancheng_0904/1170.html(去除括弧)

       http://blog.csdn.net/eastmount/article/details/51082253

首先本文參考了上述兩篇文章,爬取豆瓣電影欄目上“看不見的客人短評”,並將其導入cvs。

關於正則匹配多行html,實際上需要在原有基礎上加入re.S。

這樣,每行行末尾將通過“\n+空格”的形式呈現出來。

而實際上匹配可以通過.*?直接過濾掉。

詳情可看第13行。

另說python的pandas模塊,使用DataFrame的to_cvs導入還需要進行編碼轉換,避免亂碼。

 1 #coding=utf-8
 2 import requests
 3 import re
 4 import pandas as pd
 5 headers={
 6     'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
 7     'Host':'movie.douban.com'
 8     }
 9 cookies={'Cookie':'你自己的COOKIE'}
10 url='https://movie.douban.com/subject/26580232/comments?status=P'
11 html=requests.get(url,headers=headers,cookies=cookies)
12 reg=re.compile(r'<a href="(.*?)&amp;status=P".*?class="next">')
13 ren=re.compile(r'<span class="comment-info">.*? class="">(.*?)</a>.*?<span>.*?title="(.*?)"></span>.*?<span.*? title="(.*?)">.*?<p class="">(.*?)\n',re.S)
14 while html.status_code==200:
15     url_next='https://movie.douban.com/subject/26580232/comments'+re.findall(reg,html.text)[0]
16     keren=re.findall(ren,html.text)
17     data=pd.DataFrame(keren)
18     print(data)
19     print(url_next)
20     data.to_csv('/Users/b1ancheng/Desktop/kerenduanping.csv',header=False,index=False, mode='a+',encoding="utf_8_sig")
21     data=[]
22     keren=[]
23     html=requests.get(url_next,headers=headers,cookies=cookies)

 望兄多提意見,共同進步。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 做公司網站的時候由於需要在內容屬性中加入圖片,所以就有了這個問題,本來一開始找幾篇文章看都是講修改kindeditor/jsp/file_manager_json.jsp和upload_json.jsp,可我改了半天地址,還是沒改對,所以想到另一個方法,因為upload_json.jsp的主要功能就 ...
  • 今年Python突然變得很火,據說入門也簡單,耐不住好奇,開始了我的Python之路,在學習Python之前,我只有簡單的Java基礎,沒有其他的編程經驗,而且以前也沒寫過博客,如果在文中有任何錯誤或者不足的地方,希望諸位嘴下留情,給予指點,現在給自己定的小目標是寫一個爬蟲出來,。Go on,開始踏 ...
  • 1、for迴圈套for迴圈,外面for每執行一次,裡面for執行10次,直到外面for執行完10次為止 運行結果: 2、外面1-for執行10次(0~9),2-for大於5退出迴圈 ...
  • 設置調整mq_queue的size*num如果大於預設(POSIX message queues),則需要調整系統限制和用戶限制,不然在mq_open是會報"Too many open files"的錯誤 1. man mq_overview命令可以瞭解到mq可以設置msg_max和msgsize_ ...
  • 1.在PHP開發種在很多的地方要涉及到數據類型的轉換,尤其是涉及到金額的數據類型,一定要轉換成float類型,否則在入庫的時候可能會因為數據類型的不同覆蓋掉之前的金額。(字元串和float類型相加) 2.數據類型的強制轉換:強制轉換成float類型。 ...
  • maven repository :maven的依賴查詢Alt+回車 導入包,自動修正Ctrl+N 查找類Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代碼Ctrl+Alt+O 優化導入的類和包Alt+Insert 生成代碼(如get,set方法,構造函數等)Ctrl+E或者Alt+ ...
  • 昨天發佈了 Hibernate 學習筆記第一篇後,今天第二篇來襲~ 此篇筆記是 Hibernate 學習的重點和難點,包括 Hibernate 中的映射關聯關係、Hibernate 的檢索策略與檢索方式(HQL、QBC)、Hibernate 的二級緩存,還包括管理 Session ,如何使 Sess... ...
  • 分類 功能點 Eclipse快捷鍵 IDEA快捷鍵 搜索 搜索文本 Ctrl + F Ctrl + F Ctrl + R 查找替換 Alt + P/A 逐個/全部替換 Alt + F3 查找當前選中詞 繼續搜索 Ctrl + K 向前 Ctrl + Shift + K 向後 F3 Shift + F ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...