聽說 iPhone14 在 中國時間 9月8日發佈, 讓我們用python採集看看網友怎麼說

来源:https://www.cnblogs.com/Qqun261823976/archive/2022/09/05/16658399.html
-Advertisement-
Play Games

前言 嗨嘍,大家好呀~這裡是愛看美女的茜茜吶 又到了學Python時刻~今天我們來採集一下評論數據! WB態數據抓包+所有的數據提取方式+詞雲圖可視化 開發環境: python 3.8: 解釋器 pycharm: 代碼編輯器 requests 第三方模塊 採集評論代碼 # 導入模塊 import r ...


前言

嗨嘍,大家好呀~這裡是愛看美女的茜茜吶

又到了學Python時刻~今天我們來採集一下評論數據!

 

WB態數據抓包+所有的數據提取方式+詞雲圖可視化

開發環境:

  • python 3.8: 解釋器

  • pycharm: 代碼編輯器

  • requests 第三方模塊

採集評論代碼

# 導入模塊
import requests
import parsel
import re
import csv
import time
headers = {
    'cookie': 'XSRF-TOKEN=V48EJHd1wO3DP9ffnlwgfvQr; WBPSESS=yr8Ogb3qBlrorv2L6-ukSsE1SdVJvjLsi6ub0yOZpfazK2TqOMmvxlay7kNrt6LGuwSQINF-zpQWhR5GxHKCX1k4G2jaPAJoABJpxykZAJt4WAVgjdO_FFGWKvaHbvCJoOFzEoJ5rXkc31Ex4pDEylNKVb9H913jTpjFGBoBha4=; login_sid_t=8f13cfe80a400ba04cd5d9094175b145; cross_origin_proto=SSL; WBStorage=4d96c54e|undefined; _s_tentry=weibo.com; Apache=9429320084537.793.1662010843614; SINAGLOBAL=9429320084537.793.1662010843614; ULV=1662010843618:1:1:1:9429320084537.793.1662010843614:; wb_view_log=1920*10801; SSOLoginState=1662010869; SUB=_2A25OFDZPDeRhGeFI6lsT-CnPyDqIHXVtYCCHrDV8PUNbmtANLXDXkW9NfV7QbU7-nuy6Ejf4yBGzw8ymJY1CysT9; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWGGcL4DsCvRg-RQA6cXEKN5JpX5KzhUgL.FoMceK.E1hM0e0q2dJLoIp7LxKML1KBLBKnLxKqL1hnLBoMNSo24eonNe0ec; ALF=1693546910; wvr=6; wb_view_log_7619287336=1920*10801; webim_unReadCount=%7B%22time%22%3A1662011426887%2C%22dm_pub_total%22%3A0%2C%22chat_group_client%22%3A0%2C%22chat_group_notice%22%3A0%2C%22allcountNum%22%3A23%2C%22msgbox%22%3A0%7D; PC_TOKEN=b6ef7633b7',

 

 

 

    response = requests.get(url=url, headers=headers)
    html_data = response.json()['data']['html']
    selector = parsel.Selector(html_data)
    # .list_box > .list_ul > div .list_con .WB_text:nth-child(1)
    divs = selector.css('.list_box > .list_ul > div')
    try:
        sub_ = re.findall('action-data="(id=4808806519278561.*?)"', html_data)[0]
    except:
        sub_ = ''
    print(sub_)
    for div in divs[0: -1]:
        content = div.css('.list_con .WB_text:nth-child(1)::text').getall()[1].replace(':', '').replace(' ', '')
        imgUrl = div.css('.WB_face.W_fl img::attr(src)').get()
        user = div.css('.WB_text a:nth-child(1)::text').get()
        time_ = div.css('.WB_from.S_txt2::text').get()
        print(user, content, time_, imgUrl)
        csv_writer.writerow([user, content, time_, imgUrl])
    if sub_ == '':
        return 0
    get_next(sub_)

get_next('id=4808806519278561&from=singleWeiBo&__rnd=1662011439459')

  

 

 

詞雲圖代碼

import jieba
import pandas as pd
import stylecloud

# 讀取文件
df_wb = pd.read_csv('微博評論.csv')
def get_cut_words(content_series):
    # 讀入停用詞表
    stop_words = []

    with open("stop_words.txt", 'r', encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            stop_words.append(line.strip())

    # 添加關鍵詞
    my_words = ['沒有欲望', '便宜點']
    for i in my_words:
        jieba.add_word(i)
        # 自定義停用詞
        my_stop_words = []
        stop_words.extend(my_stop_words)
    # 分詞
    word_num = jieba.lcut(content_series.str.cat(sep=''), cut_all=False)

    # 條件篩選
    word_num_selected = [i for i in word_num if i not in stop_words and len(i) >= 2]

    return word_num_selected

text = get_cut_words(content_series=df_wb['content'])

# 繪製詞雲圖
stylecloud.gen_stylecloud(
    text=' '.join(text),
    collocations=False,
    font_path=r'C:\Windows\Fonts\msyh.ttc',
    icon_name='fab fa-apple',
    size = 768,
    output_name='iPhone.png',
)

 

好了,今天的分享就到這裡,需要更多源碼、資料點擊下方藍字即可~

更多資料獲取加Q君羊:261823976 點擊藍字加入【python學習裙】

記得點贊鴨~

 

 

尾語

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 非同步編程在 Rust 中的地位非常高,很多 crate 尤其是多IO操作的都使用了 async/await. 首先弄清楚非同步編程的幾個基本概念: Future Future 代表一個可在未來某個時候獲取返回值的 task,為了獲取這個 task 的執行狀況,Future 提供了一個函數用於判斷該 t ...
  • 引入依賴 <dependency> <groupId>com.github.ben-manes.caffeine</groupId> <artifactId>caffeine</artifactId> <version>2.5.5</version> </dependency> 基礎創建方式 Cac ...
  • 序言 每逢佳節倍思親,想買個東西給家裡,結果發現手速不夠,網速不夠快,沒有時間下單等等各種原因導致最後想買的東西售罄了… 甚至跟你一起搶購的可能是腳本,太真實了! 今天就給大家分享一個python版搶購月餅的腳本,我們要用魔法打敗魔法!話不多說,直接開搞! 準備工作 今天要用的是一個測試工具的庫:S ...
  • 摘要:經常有朋友問,學 Python 面向對象時,翻閱別人代碼,會發現一個 super() 函數,那這個函數的作用到底是什麼? 本文分享自華為雲社區《Python 中的 super 函數怎麼學,怎麼解?》,作者:夢想橡皮擦。 實戰場景 經常有朋友問,學 Python 面向對象時,翻閱別人代碼,會發現 ...
  • 日誌對程式的重要性不言而喻,輕巧、簡單、無需費腦,程式代碼中隨處可見,幫助我們排查定位一個有一個問題問題。但看似不起眼的日誌,卻隱藏著各式各樣的“坑”,如果使用不當,不僅不能幫助我們,反而會成為服務“殺手”。 本文主要介紹生產環境日誌使用不當導致的“坑”及避坑指北,高併發系統下尤為明顯。同時提供一套... ...
  • IO流 筆記目錄:(https://www.cnblogs.com/wenjie2000/p/16378441.html) IO流體系圖 文件 什麼是文件 文件.對我們並不陌生,文件是==保存數據的地方==,比如大家經常使用的word文檔,txt文件.excel文件...都是文件。它既可以保存一張圖 ...
  • django的基本操作 1.django的安裝 (1)在ubuntu上的安裝 sudo pip3 install django==2.1.12(版本號) 檢查安裝是否成功: sudo pip3 freeze|grep -i ‘Django' 有輸出django==2.2.12 表示安裝成功 (2)在 ...
  • Golang只有二十五個系統保留關鍵字,二十幾個系統內置函數,加起來只有五十個左右需要記住的關鍵字,縱觀編程宇宙,無人能出其右。其中還有一些保留關鍵字屬於“錦上添花”,什麼叫錦上添花?就是從錶面上看,就算沒有,也無傷大雅,不影響業務或者邏輯的實現,比如lambda表達式之類,沒有也無所謂,但在初始化 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...