前言 本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。 最近一直在關註百度明星吧,發現很多有趣的帖子,於是我就想用python把這些帖子都爬下來,並對內容進行分析。 本文的知識點: 介紹了mysql資料庫內容插入及提取的簡單應用; ...
前言
本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。
最近一直在關註百度明星吧,發現很多有趣的帖子,於是我就想用python把這些帖子都爬下來,並對內容進行分析。
本文的知識點:
- 介紹了mysql資料庫內容插入及提取的簡單應用;
- 介紹瞭如何從mysql資料庫提取文本併進行分析;
- 介紹了數據分析的切入點及思路。
下麵給大家詳細介紹一下實現過程:
一、網站分析
貼吧的翻頁通過url的變化來實現,主要是pn參數:
https://tieba.baidu.com/f?kw=明星&ie=utf-8&pn=頁數*50
帖子的內容、發帖者及跟帖數量都可以在網頁中找到:
所以,我們只需要用requests模擬請求獲得,再用bs4解析就可以獲得想要的內容了
二、python編程實現
1.爬取數據
用了靜態網頁爬蟲的老套路,根據網頁源碼的特點,用find_all函數提取了帖子、發帖人及跟帖數量等信息,並將3類信息放入列表中,最終生成1個二維列表result,主要為了方便存入資料庫,代碼如下:
for t in range(250): print('第{0}頁'.format(t+1)) url='https://tieba.baidu.com/f?kw=明星&ie=utf-8&pn={0}'.format(t*50) header = { 'User-Agent': 'Mozilla/5.0(Windows NT 6.1; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0' } response = requests.get(url, header) soup = BeautifulSoup(response.text, 'html.parser') items_content = soup.find_all('a', class_='j_th_tit') #內容 items_user = soup.find_all('span', class_='tb_icon_author') #昵稱 items_comment = soup.find_all(class_='threadlist_rep_num center_text') #跟帖數量 for i, j, k in zip(items_content, items_user, items_comment): result.append([i.get('title'), j.get('title')[5:], k.text]) time.sleep(1)
2.存入資料庫
先創建1個新表,命名為‘STAR’,然後再創建3列,分別命名為“title”、‘author’和‘num’,用於存放1中怕的內容,最後將二維列表result中的內容存入資料庫:
conn=pymysql.connect( host='127.0.0.1', port=3306, user='root', password='資料庫密碼', db='test1', charset='utf8mb4' ) cur = conn.cursor() #如果存在TIEBA表,則刪除 cur.execute("DROP STAR IF EXISTS STAR") #創建TIEBA表 sql = """ create table STAR( title char(255), author char(100), num char(20)) """ cur.execute(sql) for i in result: cur.execute("INSERT INTO STAR(title,author,num) VALUES ('{0}','{1}','{2}')". format(i[0].replace('\'','').replace('\"','').replace('\\',''), i[1], i[2])) conn.commit()
由於帖子內容中存在表情等符號,所以選擇用'utf8mb4'這樣就可以把表情也存入資料庫了,但是還有一些標點符號在寫入過程會出錯,所以用replace給替換掉了。
總共爬了250頁數據,最後的結果如下:
總共爬了1萬3千多條數據,基本把最近兩年的帖子都爬完了。
三、可視化展示
用create_engine模塊讀取資料庫表中的內容,代碼如下:
import pandas as pd from sqlalchemy importcreate_engine # 初始化資料庫連接,使用create_engine模塊 engine =create_engine('mysql+pymysql://root:密碼@127.0.0.1:3306/test1') # 查詢語句,選出STAR表中的所有數據 sql = ''' select *from STAR; ''' # read_sql_query的兩個參數: sql語句, 資料庫連接 df =pd.read_sql_query(sql, engine) # 輸出STAR表的查詢結果 df['num']=[int(i) for i in list(df['num'])] df=df.drop_duplicates(subset=['title','author','num'], keep='first')
因為跟帖數量是以字元格式存入的,所以先將其轉為整數,再用drop_duplicates模塊對數據進行去重,這樣就把數據整理完畢了。
上萬條數據放在你面前,用肉眼是看不出什麼名堂的,所以我這裡選擇了幾個角度,用python統計分析這個貼吧里到底隱藏著什麼秘密
1.找出發帖數量最多的20個人
說簡單點就是創建1個空字典,然後把df['author']轉成列表,統計列表中元素個數,將元素及個數存入字典中,再對字典進行排序,將前十個畫成柱狀圖,代碼如下:
#發帖數量排名 rank_num={} for i in list(set(list(df['author']))): rank_num[i.replace(' ', '')] = list(df['author']).count(i) rank_num = sorted(rank_num.items(), key=lambda x: x[1], reverse=True) bar = Bar("柱狀圖", "發帖數量-昵稱") bar.add("發帖數量-昵稱", [i[0] for i in rank_num[:10]], [i[1] for i in rank_num[:10]], xaxis_rotate=45, mark_line=["average"], mark_point=["max", "min"]) bar.render('發帖數量-昵稱.html')
結果如下:
這個獵頭髮帖有點猛啊,單人最高發了751個,真厲害。
2.找出跟帖數最多的20個帖子
dff=df.sort_values(by='num', ascending=False).head(10) bar = Bar('跟帖數量排名',width=1000,height=400) bar.use_theme('dark') bar.add('' ,dff['title'][::-1], dff['num'][::-1], is_convert=True, is_yaxis_inverse=False, xaxis_rotate=45,is_label_show=True,label_pos='right') bar.render("跟帖數量排名.html")
結果如下:
跟帖最多的竟然是個水貼,數量高達73459次
3.製作所有帖子的詞雲圖
先把所有帖子連接成字元,用jieba進行分詞,插入背景圖片,代碼如下:
import matplotlib.pyplot as plt import jieba from wordcloud importwordcloud text='' for i in list(df['title']): text+=i print(text) cut_text = jieba.cut(text) result=[] for i in cut_text: result.append(i) result = " ".join(result) wc = wordcloud.WordCloud( font_path='C:\Windows\Fonts\FZBWKSJW.TTF', # 字體路徑 background_color='white', # 背景顏色 width=1000, height=600, max_font_size=1000, # 字體大小 min_font_size=10, mask=plt.imread('水滴.jpg'), # 背景圖片 max_words=100000) wc.generate(result) wc.to_file('result.png') # 圖片保存
效果如下:
看了這張詞雲圖,可以確定貼吧基本已經被獵頭占領了,連肖戰、李現等流量小生都被壓下去了。