用Python來揭秘吃瓜群眾是如何看待羅志祥事件的

-Advertisement-

前言最近娛樂圈可以說得上是熱鬧非凡，前有霸道總裁愛小三，正宮撕逼網紅女，後有陽光大男孩羅志祥，被周揚青扒的名聲掃地。貴圈的愛情故事，常人是難以理解的，正如賈旭明張康這段相聲所說的這樣，娛樂圈的愛情總是分分合合,成為老百姓茶餘飯後的談資，城外的人想進去，城裡的人真會玩。各種版本的洗白、謠言遍地亂飛 ...

前言

最近娛樂圈可以說得上是熱鬧非凡，前有霸道總裁愛小三，正宮撕逼網紅女，後有陽光大男孩羅志祥，被周揚青扒的名聲掃地。貴圈的愛情故事，常人是難以理解的，正如賈旭明張康這段相聲所說的這樣，娛樂圈的愛情總是分分合合,成為老百姓茶餘飯後的談資，城外的人想進去，城裡的人真會玩。

各種版本的洗白、謠言遍地亂飛，吃瓜網友們是如何看待的呢？

用數據說話，是數據工作者的意義所在，整個數據分析的過程分為三步：

數據獲取
數據預處理
數據可視化及數據分析

以下是具體步驟和代碼實現：

數據獲取

數據獲取地址：

'http://ent.163.com/20/0423/09/FASTLQ7I00038FO9.html'

在爬取評論數據之前，我們需要按F12對評論數據網頁進行分析，可以發現共計172頁，offset從0開始，每增加一頁offset增加30，可以使用get方法獲取。

核心代碼：

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
# 評論地址
url="http://comment.api.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/FASTLQ7I00038FO9/comments/newList?ibc=newspc&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&offset={}"
# 迴圈爬取
df = pd.DataFrame(None)
i = 0
while True:
    ret = requests.get(url.format(str(i*30)), headers=headers)
    text = ret.text
    result = json.loads(text)
    t = result['comments'].values()
    s = json_normalize(t)
    i += 1
    if len(s) == 0:
        print("爬取結束")
        break
    else:
        df = df.append(s)
        print("第{}頁爬取完畢".format(i))

df.to_csv('data.csv')

數據展示

數據預處理

數據預處理是數據可視化之前非常重要的一部分。包含數據讀取、評論去重、數據格式轉換等

import pandas as pd
#數據讀取
df = pd.read_csv('data.csv')
# 評論去重
df=df.drop_duplicates('commentId').reset_index(drop=True)
#格式轉換
df['new_time'] = df.apply(lambda x : x['createTime'].split(':',1)[0],axis=1)

數據分析及可視化

1.事件關註指數

從周揚青的微博、頭條等平臺的推送時間為4月23日9點，時間很準，足以說明為了這次離婚聲明已準備有一段時間，絕非衝動所為。從發送內容上看，聲明中開頭略有調侃，後面刀刀見血，文筆也潤色了不少。在事件發生後，關註指數來看，23日10點評論指數達到高峰，之後評論逐步減少。

2.網友評論詞語分析

從詞雲圖中我們不難看出，很多人為周揚青打抱不平，跟隨九年，最後鬧得如此收場。隔著屏幕，都可以感受到大眾對羅志祥人品的憤怒，當然也能看著吃瓜群眾的呵呵聲。藝人是公眾人物，一言一行都會給社會，特別青少年群體帶來深遠的影響。人品不僅僅是鏡頭下的人品，更是生活中的人品。“始於顏值，陷於才華，忠於人品”是大眾對胡歌的贊譽，也是老百姓對文藝工作者的期許，這是羅志祥要改正的地方。

核心代碼

import jieba.analyse
import os 
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType, ThemeType 
from pyecharts.charts import Page
from pyecharts import options as opts
def get_comment_word(df): 
    # 集合形式存儲-去重
    stop_words = set()  
    print(stop_words)

    # 載入停用詞
    cwd = os.getcwd() 
    stop_words_path = cwd + '/stop_words.txt'
    print(stop_words_path)

    with open(stop_words_path, 'r', encoding="ISO-8859-1") as sw:
        for line in sw.readlines():
            stop_words.add(line.strip()) 
    print(stop_words)

    # 合併評論信息
    df_comment_all = df['content'].str.cat() 

    # 使用TF-IDF演算法提取關鍵詞
    word_num = jieba.analyse.extract_tags(df_comment_all, topK=300, withWeight=True, allowPOS=())
    print(word_num)
    # 做一步篩選
    word_num_selected = []

    # 篩選掉停用詞
    for i in word_num:
        if i[0] not in stop_words:
            word_num_selected.append(i) 
        else:
            pass 

    return word_num_selected

3.愛留言的吃瓜群眾來自何處

從上述圖表中，我們可以看到廣州、深圳、上海的網友留言位列前三名，喜歡評論的人基本處於一線城市、準一線城市，一方面是由於人口聚集量比較大，另外一方面為這些城市信息流通比較快。

核心代碼

from snapshot_selenium import snapshot as driver
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.render import make_snapshot
df = df.groupby(['user.location']).agg({'序號':'count'}).reset_index()
df.rename(columns={'place':'user.location'}, inplace=True)
df = df[~df['user.location'].isin(['上海','中國','來自火星','火星'])]
df = df.sort_values(['序號'],axis = 0,ascending = False)
df_gb_top = df[:15]

def bar_chart() -> Bar:
    c = (
        Bar()
        .add_xaxis(list(df_gb_top['user.location']))
        .add_yaxis("寫評論Top15的地區", list(df_gb_top['序號']))
        .reversal_axis()
        .set_series_opts(label_opts=opts.LabelOpts(position="right"))
        .set_global_opts(title_opts=opts.TitleOpts(title="排行榜"))
    )
    return c

如果你處於想學Python或者正在學習Python，Python的教程不少了吧，但是是最新的嗎？說不定你學了可能是兩年前人家就學過的內容，在這小編分享一波2020最新的Python教程。獲取方式，私信小編 “ 資料 ”，即可免費獲取哦！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

springboot整合微信小程式實現登錄與增刪改查

項目描述：在微信小程式中通過與Springboot操作資料庫實現登錄驗證，其中我是用springboot整合mybatis-plus 和mysql操作資料庫 1. 開發前準備 1.1 前置知識 java基礎 SpringBoot簡單基礎知識 1.2 環境參數開發工具：IDEA 基礎環境：Maven ...
golang 包結構

golang包管理一、GOPATH GOPATH：進行golang開發時的工作空間，你編寫的go源代碼和編譯後生成的可執行程式都將存放在GOPATH下。註意，GOPATH只是一個普通的文件目錄並且你所有的編碼工作都應該在該目錄下完成(golang 1.11版本引入包依賴管理工具go mod，可 ...
LeetCode 202. 快樂數

我的LeetCode：https://leetcode cn.com/u/ituring/ 我的LeetCode刷題源碼[GitHub]：https://github.com/izhoujie/Algorithmcii LeetCode 202. 快樂數題目編寫一個演算法來判斷一個數 n 是不是快 ...
透徹理解C++11新特性：右值引用、std::move、std::forward

[toc] C++11出現的右值相關語法可謂是很多C++程式員難以理解的新特性，不少人知其然而不知其所以然，面試被問到時大概就只知道可以減少開銷，但是為什麼減少開銷、減少了多少開銷、什麼時候用...這些問題也不一定知道，於是我寫下了這篇夾帶自己理解的博文，希望它對你有所幫助。淺拷貝、深拷貝在介紹 ...
Servlet之Response對象

Response對象功能：設置響應消息 1. 設置響應行 1. 格式：HTTP/1.1 200 ok 2. 設置狀態碼：setStatus（int sc） 2. 設置響應頭：setHeader（String name，String value） 3. 設置響應體使用步驟 1. 獲取輸出流字元輸 ...
Python函數如何重載？案例詳解

什麼是函數重載？簡單的理解，支持多個同名函數的定義，只是參數的個數或者類型不同，在調用的時候，解釋器會根據參數的個數或者類型，調用相應的函數。重載這個特性在很多語言中都有實現，比如 C++、Java 等，而 Python 並不支持。這篇文章呢，通過一些小技巧，可以讓 Python 支持類似的功能。 ...
Python帶你做個愉快的"動森"玩家! (超簡單代碼)

最近Switch上的《動物森友會》可謂是炙手可熱，它幾乎算是任天堂版的《模擬人生》了，它的最新游戲《集合啦！動物森友會》（以下稱“動森”）在發售後，取得了不錯的媒體評價和首發成績。動森火起來有大部分原因是因為它的細節做的很到位，例如最受好評的：玩家可以自己手工DIY。(說實話，如果不是動森，我的N ...
如何在利用 Composer 註冊全局輔助函數？

Composer 使用不同的技術和標準簡化了類的自動載入。當今最常見的自動載入標準是 PSR-4: "autoload": { "psr-4": { "App\\": "src/" } } 這將使用帶有 “App” 名稱空間首碼的 PSR-4 標准將 src 文件夾中的所有類自動載入。但是，我們如何 ...