前言 最近娛樂圈可以說得上是熱鬧非凡,前有霸道總裁愛小三,正宮撕逼網紅女,後有陽光大男孩羅志祥,被周揚青扒的名聲掃地。貴圈的愛情故事,常人是難以理解的,正如賈旭明張康這段相聲所說的這樣,娛樂圈的愛情總是分分合合,成為老百姓茶餘飯後的談資,城外的人想進去,城裡的人真會玩。 各種版本的洗白、謠言遍地亂飛 ...
前言
最近娛樂圈可以說得上是熱鬧非凡,前有霸道總裁愛小三,正宮撕逼網紅女,後有陽光大男孩羅志祥,被周揚青扒的名聲掃地。貴圈的愛情故事,常人是難以理解的,正如賈旭明張康這段相聲所說的這樣,娛樂圈的愛情總是分分合合,成為老百姓茶餘飯後的談資,城外的人想進去,城裡的人真會玩。
各種版本的洗白、謠言遍地亂飛,吃瓜網友們是如何看待的呢?
用數據說話,是數據工作者的意義所在,整個數據分析的過程分為三步:
- 數據獲取
- 數據預處理
- 數據可視化及數據分析
以下是具體步驟和代碼實現:
數據獲取
數據獲取地址:
'http://ent.163.com/20/0423/09/FASTLQ7I00038FO9.html'
在爬取評論數據之前,我們需要按F12對評論數據網頁進行分析,可以發現共計172頁,offset從0開始,每增加一頁offset增加30,可以使用get方法獲取。
核心代碼:
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'} # 評論地址 url="http://comment.api.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/FASTLQ7I00038FO9/comments/newList?ibc=newspc&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&offset={}" # 迴圈爬取 df = pd.DataFrame(None) i = 0 while True: ret = requests.get(url.format(str(i*30)), headers=headers) text = ret.text result = json.loads(text) t = result['comments'].values() s = json_normalize(t) i += 1 if len(s) == 0: print("爬取結束") break else: df = df.append(s) print("第{}頁爬取完畢".format(i)) df.to_csv('data.csv')
數據展示
數據預處理
數據預處理是數據可視化之前非常重要的一部分。包含數據讀取、評論去重、數據格式轉換等
import pandas as pd #數據讀取 df = pd.read_csv('data.csv') # 評論去重 df=df.drop_duplicates('commentId').reset_index(drop=True) #格式轉換 df['new_time'] = df.apply(lambda x : x['createTime'].split(':',1)[0],axis=1)
數據分析及可視化
1.事件關註指數
從周揚青的微博、頭條等平臺的推送時間為4月23日9點,時間很準,足以說明為了這次離婚聲明已準備有一段時間,絕非衝動所為。從發送內容上看,聲明中開頭略有調侃,後面刀刀見血,文筆也潤色了不少。在事件發生後,關註指數來看,23日10點評論指數達到高峰,之後評論逐步減少。
2.網友評論詞語分析
從詞雲圖中我們不難看出,很多人為周揚青打抱不平,跟隨九年,最後鬧得如此收場。隔著屏幕,都可以感受到大眾對羅志祥人品的憤怒,當然也能看著吃瓜群眾的呵呵聲。藝人是公眾人物,一言一行都會給社會,特別青少年群體帶來深遠的影響。人品不僅僅是鏡頭下的人品,更是生活中的人品。“始於顏值,陷於才華,忠於人品”是大眾對胡歌的贊譽,也是老百姓對文藝工作者的期許,這是羅志祥要改正的地方。
核心代碼
import jieba.analyse import os from pyecharts.charts import WordCloud from pyecharts.globals import SymbolType, ThemeType from pyecharts.charts import Page from pyecharts import options as opts def get_comment_word(df): # 集合形式存儲-去重 stop_words = set() print(stop_words) # 載入停用詞 cwd = os.getcwd() stop_words_path = cwd + '/stop_words.txt' print(stop_words_path) with open(stop_words_path, 'r', encoding="ISO-8859-1") as sw: for line in sw.readlines(): stop_words.add(line.strip()) print(stop_words) # 合併評論信息 df_comment_all = df['content'].str.cat() # 使用TF-IDF演算法提取關鍵詞 word_num = jieba.analyse.extract_tags(df_comment_all, topK=300, withWeight=True, allowPOS=()) print(word_num) # 做一步篩選 word_num_selected = [] # 篩選掉停用詞 for i in word_num: if i[0] not in stop_words: word_num_selected.append(i) else: pass return word_num_selected
3.愛留言的吃瓜群眾來自何處
從上述圖表中,我們可以看到廣州、深圳、上海的網友留言位列前三名,喜歡評論的人基本處於一線城市、準一線城市,一方面是由於人口聚集量比較大,另外一方面為這些城市信息流通比較快。
核心代碼
from snapshot_selenium import snapshot as driver from pyecharts import options as opts from pyecharts.charts import Bar from pyecharts.render import make_snapshot df = df.groupby(['user.location']).agg({'序號':'count'}).reset_index() df.rename(columns={'place':'user.location'}, inplace=True) df = df[~df['user.location'].isin(['上海','中國','來自火星','火星'])] df = df.sort_values(['序號'],axis = 0,ascending = False) df_gb_top = df[:15] def bar_chart() -> Bar: c = ( Bar() .add_xaxis(list(df_gb_top['user.location'])) .add_yaxis("寫評論Top15的地區", list(df_gb_top['序號'])) .reversal_axis() .set_series_opts(label_opts=opts.LabelOpts(position="right")) .set_global_opts(title_opts=opts.TitleOpts(title="排行榜")) ) return c
如果你處於想學Python或者正在學習Python,Python的教程不少了吧,但是是最新的嗎?說不定你學了可能是兩年前人家就學過的內容,在這小編分享一波2020最新的Python教程。獲取方式,私信小編 “ 資料 ”,即可免費獲取哦!