python深挖65萬人的明星貼吧,探究上萬個帖子的秘密

来源:https://www.cnblogs.com/hhh188764/archive/2020/06/27/13199646.html
-Advertisement-
Play Games

前言 本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。 最近一直在關註百度明星吧,發現很多有趣的帖子,於是我就想用python把這些帖子都爬下來,並對內容進行分析。 本文的知識點: 介紹了mysql資料庫內容插入及提取的簡單應用; ...


前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。

最近一直在關註百度明星吧,發現很多有趣的帖子,於是我就想用python把這些帖子都爬下來,並對內容進行分析。

本文的知識點:

  • 介紹了mysql資料庫內容插入及提取的簡單應用;
  • 介紹瞭如何從mysql資料庫提取文本併進行分析;
  • 介紹了數據分析的切入點及思路。
python深挖65萬人的明星貼吧,探究上萬個帖子的秘密

 

下麵給大家詳細介紹一下實現過程:

一、網站分析

python深挖65萬人的明星貼吧,探究上萬個帖子的秘密

 

貼吧的翻頁通過url的變化來實現,主要是pn參數:

https://tieba.baidu.com/f?kw=明星&ie=utf-8&pn=頁數*50

帖子的內容、發帖者及跟帖數量都可以在網頁中找到:

python深挖65萬人的明星貼吧,探究上萬個帖子的秘密

 

所以,我們只需要用requests模擬請求獲得,再用bs4解析就可以獲得想要的內容了

二、python編程實現

1.爬取數據

用了靜態網頁爬蟲的老套路,根據網頁源碼的特點,用find_all函數提取了帖子、發帖人及跟帖數量等信息,並將3類信息放入列表中,最終生成1個二維列表result,主要為了方便存入資料庫,代碼如下:

for t in range(250):
    print('第{0}頁'.format(t+1))
    url='https://tieba.baidu.com/f?kw=明星&ie=utf-8&pn={0}'.format(t*50)
    header = {
        'User-Agent': 'Mozilla/5.0(Windows NT 6.1; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'
    }
    response = requests.get(url, header)
    soup = BeautifulSoup(response.text, 'html.parser')
    items_content = soup.find_all('a', class_='j_th_tit')  #內容
    items_user = soup.find_all('span', class_='tb_icon_author') #昵稱
    items_comment = soup.find_all(class_='threadlist_rep_num center_text')  #跟帖數量
    for i, j, k in zip(items_content, items_user, items_comment):
        result.append([i.get('title'), j.get('title')[5:], k.text])
    time.sleep(1)

 

2.存入資料庫

先創建1個新表,命名為‘STAR’,然後再創建3列,分別命名為“title”、‘author’和‘num’,用於存放1中怕的內容,最後將二維列表result中的內容存入資料庫:

conn=pymysql.connect(
    host='127.0.0.1',
    port=3306,
    user='root',
    password='資料庫密碼',
    db='test1',
    charset='utf8mb4'
)
cur = conn.cursor()
#如果存在TIEBA表,則刪除
cur.execute("DROP STAR IF EXISTS STAR")
#創建TIEBA表
sql = """
    create table STAR(
    title char(255),
    author char(100),
    num char(20))
"""
cur.execute(sql)
for i in result:
    cur.execute("INSERT INTO STAR(title,author,num) VALUES ('{0}','{1}','{2}')".
                format(i[0].replace('\'','').replace('\"','').replace('\\',''), i[1], i[2]))
conn.commit()

 

由於帖子內容中存在表情等符號,所以選擇用'utf8mb4'這樣就可以把表情也存入資料庫了,但是還有一些標點符號在寫入過程會出錯,所以用replace給替換掉了。

總共爬了250頁數據,最後的結果如下:

python深挖65萬人的明星貼吧,探究上萬個帖子的秘密

 

總共爬了1萬3千多條數據,基本把最近兩年的帖子都爬完了。

三、可視化展示

用create_engine模塊讀取資料庫表中的內容,代碼如下:

import pandas as pd
from sqlalchemy importcreate_engine
# 初始化資料庫連接,使用create_engine模塊
engine =create_engine('mysql+pymysql://root:密碼@127.0.0.1:3306/test1')
# 查詢語句,選出STAR表中的所有數據
sql = ''' select *from STAR; '''
# read_sql_query的兩個參數: sql語句, 資料庫連接
df =pd.read_sql_query(sql, engine)
# 輸出STAR表的查詢結果
df['num']=[int(i) for i in list(df['num'])]
df=df.drop_duplicates(subset=['title','author','num'], keep='first')

 

因為跟帖數量是以字元格式存入的,所以先將其轉為整數,再用drop_duplicates模塊對數據進行去重,這樣就把數據整理完畢了。

上萬條數據放在你面前,用肉眼是看不出什麼名堂的,所以我這裡選擇了幾個角度,用python統計分析這個貼吧里到底隱藏著什麼秘密

1.找出發帖數量最多的20個人

說簡單點就是創建1個空字典,然後把df['author']轉成列表,統計列表中元素個數,將元素及個數存入字典中,再對字典進行排序,將前十個畫成柱狀圖,代碼如下:

#發帖數量排名
rank_num={}
for i in list(set(list(df['author']))):
    rank_num[i.replace(' ', '')] = list(df['author']).count(i)
rank_num = sorted(rank_num.items(), key=lambda x: x[1], reverse=True)
bar = Bar("柱狀圖", "發帖數量-昵稱")
bar.add("發帖數量-昵稱", [i[0] for i in rank_num[:10]], [i[1] for i in rank_num[:10]],
        xaxis_rotate=45, mark_line=["average"], mark_point=["max", "min"])
bar.render('發帖數量-昵稱.html')

 

結果如下:

python深挖65萬人的明星貼吧,探究上萬個帖子的秘密

 

這個獵頭髮帖有點猛啊,單人最高發了751個,真厲害。

2.找出跟帖數最多的20個帖子

dff=df.sort_values(by='num', ascending=False).head(10)
bar = Bar('跟帖數量排名',width=1000,height=400)
bar.use_theme('dark')
bar.add('' ,dff['title'][::-1], dff['num'][::-1], is_convert=True, is_yaxis_inverse=False, xaxis_rotate=45,is_label_show=True,label_pos='right')
bar.render("跟帖數量排名.html")

 

結果如下:

python深挖65萬人的明星貼吧,探究上萬個帖子的秘密

 

python深挖65萬人的明星貼吧,探究上萬個帖子的秘密

 

 

跟帖最多的竟然是個水貼,數量高達73459次

3.製作所有帖子的詞雲圖

先把所有帖子連接成字元,用jieba進行分詞,插入背景圖片,代碼如下:

import matplotlib.pyplot as plt
import jieba
from wordcloud importwordcloud
text=''
for i in list(df['title']):
    text+=i
print(text)
cut_text = jieba.cut(text)
result=[]
for i in cut_text:
    result.append(i)
result = " ".join(result)
wc = wordcloud.WordCloud(
    font_path='C:\Windows\Fonts\FZBWKSJW.TTF',  # 字體路徑
    background_color='white',  # 背景顏色
    width=1000,
    height=600,
    max_font_size=1000,  # 字體大小
    min_font_size=10,
    mask=plt.imread('水滴.jpg'),  # 背景圖片
    max_words=100000)
wc.generate(result)
wc.to_file('result.png')  # 圖片保存

 

效果如下:

python深挖65萬人的明星貼吧,探究上萬個帖子的秘密

 

看了這張詞雲圖,可以確定貼吧基本已經被獵頭占領了,連肖戰、李現等流量小生都被壓下去了。

 

 
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • jdk1.7中的底層實現過程(底層基於數組+鏈表) 在我們new HashMap()時,底層創建了預設長度為16的一維數組Entry[ ] table。當我們調用map.put(key1,value1)方法向HashMap里添加數據的時候: 首先,調用key1所在類的hashCode()計算key1 ...
  • tomcat伺服器源碼解讀,整體結構梳理,開源server,java servlet容器 ...
  • 跟大多數編程語言一樣,python中的迴圈有兩種: while迴圈和for迴圈 首先,介紹一下while迴圈,結合案例做一些練習。 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++while迴圈語法結構:while ...
  • 今天博主再給大家分享一個小項目:MiNi圖書管理系統。用的是Java語言開發的,代碼不多,大概260行左右吧,系統是實現圖書的新增圖書、刪除圖書、借閱圖書、歸還圖書、查看圖書等簡單的功能(後附源代碼)! 首先展示一下運行界面效果圖:運行代碼後,會在控制台顯示如下界面: 然後讓用戶選擇,如果用戶不小心 ...
  • import pandas a=pandas.read_excel() def abc(x): return ','.join(x.values) b=a.groupby(['列名'1])['列名2'].apply(abc) c=b.reset_index() print(c) ...
  • WebSocket 非同步風格伺服器 WebSocket\Server 繼承自 Http\Server,所以 Http\Server 提供的所有 API 和配置項都可以使用。 # ws_server.php class WebSocket { public $server; public functi ...
  • 一.環境要求 安裝java 1.8 以上 命令行運行 java -version 返回版本大於1.8 如果沒有,請安裝java 1.8 二.下載與安裝 下載apktool_x.x.x.jar到本地 官網下載或者 鏡像下載 重命名下載的apktool_x.x.x.jar,改名為apktool.jar ...
  • MongoSpark為入口類,調用MongoSpark.load,該方法返回一個MongoRDD類對象,Mongo Spark Connector框架本質上就是一個大號的自定義RDD,加了些自定義配置、適配幾種分區器規則、Sql的數據封裝等等,個人認為相對核心的也就是分區器的規則實現;弄清楚了其分析 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...