爬取B站彈幕並且製作詞雲

来源:https://www.cnblogs.com/smashfun/archive/2020/06/22/13179476.html
-Advertisement-
Play Games

爬取彈幕 1. 從手機埠進入網頁爬取找到介面 2.代碼 import requests from lxml import etree import numpy as np url='https://api.bilibili.com/x/v1/dm/list.so?oid=198835779' he ...


目錄

爬取彈幕

1. 從手機埠進入網頁爬取找到介面
2.代碼
import requests
from lxml import etree
import numpy as np
url='https://api.bilibili.com/x/v1/dm/list.so?oid=198835779'
headers= {
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36',
     }
response = requests.get(url,headers= headers)
# response.encoding='utf-8'
# print(response.text)
# print(response.content)
print(type(response.text))
html=etree.HTML(response.content)
t=etree.tostring(html)
# print(t)
words = html.xpath('/html//d/text()')
with open('word.txt','w')as f:
    for word in words:
        f.write(word+' ')
print(words)

每一次的都是不同的彈幕所以不用擔心彈幕數量過少

製作詞雲

利用的是wordcloud

1.文件讀取
2.代碼
#coding:utf-8


from matplotlib import pyplot as plt
from wordcloud import WordCloud
import jieba
f=open(r'word.txt','r',encoding='gbk').read()
font = r'C:\Windows\Fonts\FZSTK.TTF'

cloud=WordCloud(
    font_path=font,
    width=1000,
    height=800,
    margin=2
).generate(f)

plt.imshow(cloud)
plt.axis('off')
plt.show()

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 面向對象三要素:封裝、繼承、多態。 封裝和繼承,這兩個比較好理解,但要理解多態的話,可就稍微有點難度了。今天,我們就來講講多態的理解。 我們應該經常會看到面試題目:請談談對多態的理解。 其實呢,多態非常簡單,就一句話:調用同一種方法產生了不同的結果。 具體實現方式有三種。 一、重載 重載很簡單。 p ...
  • 為什麼要搭建港股交易平臺?那就要問股民們為什麼會選擇港股進行投資了?一般的股民可能有人會說:還能為啥啊?賺錢唄!!!但是選擇投資港股,卻可能不是簡單的賺錢這麼簡單。可能很多人並不瞭解香港市場,畢竟這是一個境外市場,運作機制和操作風格都和我們熟悉的A股有很大的不同。 與A股相比,港股的優勢是比較明顯的 ...
  • smartadmin.core.urf 這個項目是基於asp.net core 3.1(最新)基礎上參照領域驅動設計(DDD)的理念,並參考目前最為了流行的abp架構開發的一套輕量級的快速開發web application 技術架構,專註業務核心需求,減少重覆代碼,開始構建和發佈,讓初級程式員也能開 ...
  • 1.MyBatis緩存 MyBatis 包含一個非常強大的查詢緩存特性,它可以非常方便地配置和定製.緩存可以極大的提升查詢效率. 1).一級緩存 public Employee getEmpById(Integer id); <select id="getEmpById" resultType="c ...
  • 今天在jsp頁面中使用了EL表達式,同時EL表達式在for迴圈中,但是EL表達式無法與java代碼同時使用,所以記錄一下如何把java中的變數傳遞過去。 示例: <% for(int i=0;i<list.size();i++){ %> <tr> <td>${list[i].key1}</td> < ...
  • 一、基礎數據類型補充內容 1、字元串 s1 = 'taobao jD shopping' print(s1.capitalize()) #首字母大寫,其餘小寫 print(s1.swapcase()) #大小寫翻轉 print(s1.title()) #每個單詞的首字毒大寫 ret2 = s1.ce ...
  • 本教程源碼請訪問:tutorial_demo SSM整合可以使用多種方式,我們純註解的方式,拋棄所有的xml配置文件(包括web.xml),使用Java配置類和註解進行配置。 SSM的整體思路:整合Spring和SpringMVC,整合Spring和MyBatis,兩兩整合。 一、環境準備 1.1、 ...
  • 本教程源碼請訪問:tutorial_demo SSM整合可以使用多種方式,我們採用XML+註解的方式 SSM的整體思路:整合Spring和SpringMVC,整合Spring和MyBatis,兩兩整合。 一、環境準備 1.1、建庫建表 DROP DATABASE IF EXISTS ssm; CRE ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...