用Python來揭秘吃瓜群眾是如何看待羅志祥事件的

来源:https://www.cnblogs.com/python0921/archive/2020/04/30/12810798.html
-Advertisement-
Play Games

前言 最近娛樂圈可以說得上是熱鬧非凡,前有霸道總裁愛小三,正宮撕逼網紅女,後有陽光大男孩羅志祥,被周揚青扒的名聲掃地。貴圈的愛情故事,常人是難以理解的,正如賈旭明張康這段相聲所說的這樣,娛樂圈的愛情總是分分合合,成為老百姓茶餘飯後的談資,城外的人想進去,城裡的人真會玩。 各種版本的洗白、謠言遍地亂飛 ...


 

 

前言

最近娛樂圈可以說得上是熱鬧非凡,前有霸道總裁愛小三,正宮撕逼網紅女,後有陽光大男孩羅志祥,被周揚青扒的名聲掃地。貴圈的愛情故事,常人是難以理解的,正如賈旭明張康這段相聲所說的這樣,娛樂圈的愛情總是分分合合,成為老百姓茶餘飯後的談資,城外的人想進去,城裡的人真會玩。

 

 

 


各種版本的洗白、謠言遍地亂飛,吃瓜網友們是如何看待的呢?

用數據說話,是數據工作者的意義所在,整個數據分析的過程分為三步:

  • 數據獲取
  • 數據預處理
  • 數據可視化及數據分析

以下是具體步驟和代碼實現:

數據獲取

數據獲取地址:

'http://ent.163.com/20/0423/09/FASTLQ7I00038FO9.html'

 

在爬取評論數據之前,我們需要按F12對評論數據網頁進行分析,可以發現共計172頁,offset從0開始,每增加一頁offset增加30,可以使用get方法獲取。

 

核心代碼:

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
# 評論地址
url="http://comment.api.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/FASTLQ7I00038FO9/comments/newList?ibc=newspc&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&offset={}"
# 迴圈爬取
df = pd.DataFrame(None)
i = 0
while True:
    ret = requests.get(url.format(str(i*30)), headers=headers)
    text = ret.text
    result = json.loads(text)
    t = result['comments'].values()
    s = json_normalize(t)
    i += 1
    if len(s) == 0:
        print("爬取結束")
        break
    else:
        df = df.append(s)
        print("第{}頁爬取完畢".format(i))

df.to_csv('data.csv')

 

數據展示

 

數據預處理

數據預處理是數據可視化之前非常重要的一部分。包含數據讀取、評論去重、數據格式轉換等

import pandas as pd
#數據讀取
df = pd.read_csv('data.csv')
# 評論去重
df=df.drop_duplicates('commentId').reset_index(drop=True)
#格式轉換
df['new_time'] = df.apply(lambda x : x['createTime'].split(':',1)[0],axis=1)

 

數據分析及可視化

1.事件關註指數

 

從周揚青的微博、頭條等平臺的推送時間為4月23日9點,時間很準,足以說明為了這次離婚聲明已準備有一段時間,絕非衝動所為。從發送內容上看,聲明中開頭略有調侃,後面刀刀見血,文筆也潤色了不少。在事件發生後,關註指數來看,23日10點評論指數達到高峰,之後評論逐步減少。

2.網友評論詞語分析

 

從詞雲圖中我們不難看出,很多人為周揚青打抱不平,跟隨九年,最後鬧得如此收場。隔著屏幕,都可以感受到大眾對羅志祥人品的憤怒,當然也能看著吃瓜群眾的呵呵聲。藝人是公眾人物,一言一行都會給社會,特別青少年群體帶來深遠的影響。人品不僅僅是鏡頭下的人品,更是生活中的人品。“始於顏值,陷於才華,忠於人品”是大眾對胡歌的贊譽,也是老百姓對文藝工作者的期許,這是羅志祥要改正的地方。

核心代碼

import jieba.analyse
import os 
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType, ThemeType 
from pyecharts.charts import Page
from pyecharts import options as opts
def get_comment_word(df): 
    # 集合形式存儲-去重
    stop_words = set()  
    print(stop_words)

    # 載入停用詞
    cwd = os.getcwd() 
    stop_words_path = cwd + '/stop_words.txt'
    print(stop_words_path)

    with open(stop_words_path, 'r', encoding="ISO-8859-1") as sw:
        for line in sw.readlines():
            stop_words.add(line.strip()) 
    print(stop_words)

    # 合併評論信息
    df_comment_all = df['content'].str.cat() 

    # 使用TF-IDF演算法提取關鍵詞
    word_num = jieba.analyse.extract_tags(df_comment_all, topK=300, withWeight=True, allowPOS=())
    print(word_num)
    # 做一步篩選
    word_num_selected = []

    # 篩選掉停用詞
    for i in word_num:
        if i[0] not in stop_words:
            word_num_selected.append(i) 
        else:
            pass 

    return word_num_selected

 

3.愛留言的吃瓜群眾來自何處

 

從上述圖表中,我們可以看到廣州、深圳、上海的網友留言位列前三名,喜歡評論的人基本處於一線城市、準一線城市,一方面是由於人口聚集量比較大,另外一方面為這些城市信息流通比較快。

核心代碼

from snapshot_selenium import snapshot as driver
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.render import make_snapshot
df = df.groupby(['user.location']).agg({'序號':'count'}).reset_index()
df.rename(columns={'place':'user.location'}, inplace=True)
df = df[~df['user.location'].isin(['上海','中國','來自火星','火星'])]
df = df.sort_values(['序號'],axis = 0,ascending = False)
df_gb_top = df[:15]

def bar_chart() -> Bar:
    c = (
        Bar()
        .add_xaxis(list(df_gb_top['user.location']))
        .add_yaxis("寫評論Top15的地區", list(df_gb_top['序號']))
        .reversal_axis()
        .set_series_opts(label_opts=opts.LabelOpts(position="right"))
        .set_global_opts(title_opts=opts.TitleOpts(title="排行榜"))
    )
    return c

 

如果你處於想學Python或者正在學習Python,Python的教程不少了吧,但是是最新的嗎?說不定你學了可能是兩年前人家就學過的內容,在這小編分享一波2020最新的Python教程。獲取方式,私信小編 “ 資料 ”,即可免費獲取哦!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 項目描述:在微信小程式中通過與Springboot操作資料庫實現登錄驗證,其中我是用springboot整合mybatis-plus 和mysql操作資料庫 1. 開發前準備 1.1 前置知識 java基礎 SpringBoot簡單基礎知識 1.2 環境參數 開發工具:IDEA 基礎環境:Maven ...
  • golang包管理 一、GOPATH GOPATH: 進行golang開發時的工作空間,你編寫的go源代碼和編譯後生成的可執行程式都將存放在GOPATH下。註意,GOPATH只是一個普通的文件目錄並且你所有的編碼工作都應該在該目錄下完成(golang 1.11版本引入 包依賴管理工具go mod,可 ...
  • 我的LeetCode:https://leetcode cn.com/u/ituring/ 我的LeetCode刷題源碼[GitHub]:https://github.com/izhoujie/Algorithmcii LeetCode 202. 快樂數 題目 編寫一個演算法來判斷一個數 n 是不是快 ...
  • [toc] C++11出現的右值相關語法可謂是很多C++程式員難以理解的新特性,不少人知其然而不知其所以然,面試被問到時大概就只知道可以減少開銷,但是為什麼減少開銷、減少了多少開銷、什麼時候用...這些問題也不一定知道,於是我寫下了這篇夾帶自己理解的博文,希望它對你有所幫助。 淺拷貝、深拷貝 在介紹 ...
  • Response對象 功能:設置響應消息 1. 設置響應行 1. 格式:HTTP/1.1 200 ok 2. 設置狀態碼:setStatus(int sc) 2. 設置響應頭:setHeader(String name,String value) 3. 設置響應體 使用步驟 1. 獲取輸出流 字元輸 ...
  • 什麼是函數重載?簡單的理解,支持多個同名函數的定義,只是參數的個數或者類型不同,在調用的時候,解釋器會根據參數的個數或者類型,調用相應的函數。 重載這個特性在很多語言中都有實現,比如 C++、Java 等,而 Python 並不支持。這篇文章呢,通過一些小技巧,可以讓 Python 支持類似的功能。 ...
  • 最近Switch上的《動物森友會》可謂是炙手可熱,它幾乎算是任天堂版的《模擬人生》了,它的最新游戲《集合啦!動物森友會》(以下稱“動森”)在發售後,取得了不錯的媒體評價和首發成績。 動森火起來有大部分原因是因為它的細節做的很到位,例如最受好評的:玩家可以自己手工DIY。(說實話,如果不是動森,我的N ...
  • Composer 使用不同的技術和標準簡化了類的自動載入。當今最常見的自動載入標準是 PSR-4: "autoload": { "psr-4": { "App\\": "src/" } } 這將使用帶有 “App” 名稱空間首碼的 PSR-4 標准將 src 文件夾中的所有類自動載入。但是,我們如何 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...