python深挖65萬人的明星貼吧，探究上萬個帖子的秘密

-Advertisement-

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。最近一直在關註百度明星吧，發現很多有趣的帖子，於是我就想用python把這些帖子都爬下來，並對內容進行分析。本文的知識點：介紹了mysql資料庫內容插入及提取的簡單應用； ...

前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。

最近一直在關註百度明星吧，發現很多有趣的帖子，於是我就想用python把這些帖子都爬下來，並對內容進行分析。

本文的知識點：

介紹了mysql資料庫內容插入及提取的簡單應用；
介紹瞭如何從mysql資料庫提取文本併進行分析；
介紹了數據分析的切入點及思路。

下麵給大家詳細介紹一下實現過程：

一、網站分析

貼吧的翻頁通過url的變化來實現，主要是pn參數:

https://tieba.baidu.com/f?kw=明星&ie=utf-8&pn=頁數*50

帖子的內容、發帖者及跟帖數量都可以在網頁中找到：

所以，我們只需要用requests模擬請求獲得，再用bs4解析就可以獲得想要的內容了

二、python編程實現

1.爬取數據

用了靜態網頁爬蟲的老套路，根據網頁源碼的特點，用find_all函數提取了帖子、發帖人及跟帖數量等信息，並將3類信息放入列表中，最終生成1個二維列表result，主要為了方便存入資料庫，代碼如下：

for t in range(250):
    print('第{0}頁'.format(t+1))
    url='https://tieba.baidu.com/f?kw=明星&ie=utf-8&pn={0}'.format(t*50)
    header = {
        'User-Agent': 'Mozilla/5.0(Windows NT 6.1; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'
    }
    response = requests.get(url, header)
    soup = BeautifulSoup(response.text, 'html.parser')
    items_content = soup.find_all('a', class_='j_th_tit')  #內容
    items_user = soup.find_all('span', class_='tb_icon_author') #昵稱
    items_comment = soup.find_all(class_='threadlist_rep_num center_text')  #跟帖數量
    for i, j, k in zip(items_content, items_user, items_comment):
        result.append([i.get('title'), j.get('title')[5:], k.text])
    time.sleep(1)

2.存入資料庫

先創建1個新表，命名為‘STAR’，然後再創建3列，分別命名為“title”、‘author’和‘num’，用於存放1中怕的內容，最後將二維列表result中的內容存入資料庫：

conn=pymysql.connect(
    host='127.0.0.1',
    port=3306,
    user='root',
    password='資料庫密碼',
    db='test1',
    charset='utf8mb4'
)
cur = conn.cursor()
#如果存在TIEBA表，則刪除
cur.execute("DROP STAR IF EXISTS STAR")
#創建TIEBA表
sql = """
    create table STAR(
    title char(255),
    author char(100),
    num char(20))
"""
cur.execute(sql)
for i in result:
    cur.execute("INSERT INTO STAR(title,author,num) VALUES ('{0}','{1}','{2}')".
                format(i[0].replace('\'','').replace('\"','').replace('\\',''), i[1], i[2]))
conn.commit()

由於帖子內容中存在表情等符號，所以選擇用'utf8mb4'這樣就可以把表情也存入資料庫了，但是還有一些標點符號在寫入過程會出錯，所以用replace給替換掉了。

總共爬了250頁數據，最後的結果如下：

總共爬了1萬3千多條數據，基本把最近兩年的帖子都爬完了。

三、可視化展示

用create_engine模塊讀取資料庫表中的內容，代碼如下：

import pandas as pd
from sqlalchemy importcreate_engine
# 初始化資料庫連接，使用create_engine模塊
engine =create_engine('mysql+pymysql://root:密碼@127.0.0.1:3306/test1')
# 查詢語句，選出STAR表中的所有數據
sql = ''' select *from STAR; '''
# read_sql_query的兩個參數: sql語句， 資料庫連接
df =pd.read_sql_query(sql, engine)
# 輸出STAR表的查詢結果
df['num']=[int(i) for i in list(df['num'])]
df=df.drop_duplicates(subset=['title','author','num'], keep='first')

因為跟帖數量是以字元格式存入的，所以先將其轉為整數，再用drop_duplicates模塊對數據進行去重，這樣就把數據整理完畢了。

上萬條數據放在你面前，用肉眼是看不出什麼名堂的，所以我這裡選擇了幾個角度，用python統計分析這個貼吧里到底隱藏著什麼秘密

1.找出發帖數量最多的20個人

說簡單點就是創建1個空字典，然後把df['author']轉成列表，統計列表中元素個數，將元素及個數存入字典中，再對字典進行排序，將前十個畫成柱狀圖，代碼如下：

#發帖數量排名
rank_num={}
for i in list(set(list(df['author']))):
    rank_num[i.replace(' ', '')] = list(df['author']).count(i)
rank_num = sorted(rank_num.items(), key=lambda x: x[1], reverse=True)
bar = Bar("柱狀圖", "發帖數量-昵稱")
bar.add("發帖數量-昵稱", [i[0] for i in rank_num[:10]], [i[1] for i in rank_num[:10]],
        xaxis_rotate=45, mark_line=["average"], mark_point=["max", "min"])
bar.render('發帖數量-昵稱.html')

結果如下：

這個獵頭髮帖有點猛啊，單人最高發了751個，真厲害。

2.找出跟帖數最多的20個帖子

dff=df.sort_values(by='num', ascending=False).head(10)
bar = Bar('跟帖數量排名',width=1000,height=400)
bar.use_theme('dark')
bar.add('' ,dff['title'][::-1], dff['num'][::-1], is_convert=True, is_yaxis_inverse=False, xaxis_rotate=45,is_label_show=True,label_pos='right')
bar.render("跟帖數量排名.html")

結果如下：

跟帖最多的竟然是個水貼，數量高達73459次

3.製作所有帖子的詞雲圖

先把所有帖子連接成字元，用jieba進行分詞，插入背景圖片，代碼如下：

import matplotlib.pyplot as plt
import jieba
from wordcloud importwordcloud
text=''
for i in list(df['title']):
    text+=i
print(text)
cut_text = jieba.cut(text)
result=[]
for i in cut_text:
    result.append(i)
result = " ".join(result)
wc = wordcloud.WordCloud(
    font_path='C:\Windows\Fonts\FZBWKSJW.TTF',  # 字體路徑
    background_color='white',  # 背景顏色
    width=1000,
    height=600,
    max_font_size=1000,  # 字體大小
    min_font_size=10,
    mask=plt.imread('水滴.jpg'),  # 背景圖片
    max_words=100000)
wc.generate(result)
wc.to_file('result.png')  # 圖片保存

效果如下：

看了這張詞雲圖，可以確定貼吧基本已經被獵頭占領了，連肖戰、李現等流量小生都被壓下去了。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

當我們創建HashMap時，底層到底做了什麼？

jdk1.7中的底層實現過程（底層基於數組+鏈表）在我們new HashMap()時，底層創建了預設長度為16的一維數組Entry[ ] table。當我們調用map.put(key1,value1)方法向HashMap里添加數據的時候：首先，調用key1所在類的hashCode()計算key1 ...
tomcat伺服器源碼解讀01-整體結構

tomcat伺服器源碼解讀,整體結構梳理，開源server，java servlet容器 ...
python中的迴圈結構

跟大多數編程語言一樣，python中的迴圈有兩種： while迴圈和for迴圈首先，介紹一下while迴圈，結合案例做一些練習。 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++while迴圈語法結構：while ...
圖書管理系統源代碼 Java初級小項目

今天博主再給大家分享一個小項目：MiNi圖書管理系統。用的是Java語言開發的，代碼不多，大概260行左右吧，系統是實現圖書的新增圖書、刪除圖書、借閱圖書、歸還圖書、查看圖書等簡單的功能（後附源代碼）！首先展示一下運行界面效果圖：運行代碼後，會在控制台顯示如下界面：然後讓用戶選擇，如果用戶不小心 ...
將多行合併併為一行

import pandas a=pandas.read_excel() def abc(x): return ','.join(x.values) b=a.groupby(['列名'1])['列名2'].apply(abc) c=b.reset_index() print(c) ...
Swoole 中使用 WebSocket 非同步伺服器、WebSocket 協程伺服器

WebSocket 非同步風格伺服器 WebSocket\Server 繼承自 Http\Server，所以 Http\Server 提供的所有 API 和配置項都可以使用。 # ws_server.php class WebSocket { public $server; public functi ...
apktool的下載,安裝,反編譯和重新打包

一.環境要求安裝java 1.8 以上命令行運行 java -version 返回版本大於1.8 如果沒有，請安裝java 1.8 二.下載與安裝下載apktool_x.x.x.jar到本地官網下載或者鏡像下載重命名下載的apktool_x.x.x.jar,改名為apktool.jar ...
Mongo Spark Connector中的分區器（一）

MongoSpark為入口類，調用MongoSpark.load，該方法返回一個MongoRDD類對象，Mongo Spark Connector框架本質上就是一個大號的自定義RDD，加了些自定義配置、適配幾種分區器規則、Sql的數據封裝等等，個人認為相對核心的也就是分區器的規則實現；弄清楚了其分析 ...