Python 詞雲【中/英】小白簡單入門教程

-Advertisement-

1. 分析構建詞雲需要具備：原料即文章等內容將內容進行分詞將分詞後的內容利用構建詞雲的工具進行構建保存成圖片 2. 需要的主要模塊 jieba 中文分詞 wordcloud 構建詞雲 3. 模塊原理 wordcloud的實現原理文本預處理詞頻統計將高頻詞以圖片形式進行彩色渲染 jie ...

1. 分析

構建詞雲需要具備：

原料即文章等內容
將內容進行分詞
將分詞後的內容利用構建詞雲的工具進行構建
保存成圖片

2. 需要的主要模塊

jieba 中文分詞
wordcloud 構建詞雲

3. 模塊原理

wordcloud的實現原理

文本預處理
詞頻統計
將高頻詞以圖片形式進行彩色渲染

jieba的實現原理

進行中文分詞（有多種模式）【詳情】

4. 英文詞雲

英文分詞和構建詞雲只需要wordcloud模塊

具體實現如下：

 1 from wordcloud import WordCloud
 2  
 3 string = 'Importance of relative word frequencies for font-size. With relative_scaling=0, only word-ranks are considered. With relative_scaling=1, a word that is twice as frequent will have twice the size. If you want to consider the word frequencies and not only their rank, relative_scaling around .5 often looks good.'
 4 font = r'C:\Windows\Fonts\FZSTK.TTF'
 5 wc = WordCloud(font_path=font, #如果是中文必須要添加這個，否則會顯示成框框
 6                background_color='white',
 7                width=1000,
 8                height=800,
 9                ).generate(string)
10 wc.to_file('ss.png') #保存圖片

5. 中文分詞

具體實現如下:

1 import jieba 
2 cut = jieba.cut(text)  #text為你需要分詞的字元串/句子
3 string = ' '.join(cut)  #將分開的詞用空格連接

6. 中文詞雲

中文詞雲需要jieba和wordcloud模塊

具體實現如下:

 1 import jieba
 2 from wordcloud import WordCloud
 3 from PIL import Image
 4 import numpy as np
 5 
 6 font = 'hwkt.ttf'
 7 content = (open('崗位需求.txt','r',encoding='utf-8')).read()
 8 cut = jieba.cut(content)
 9 cut_content = ' '.join(cut)
10 img = Image.open('22.png') # 以什麼圖片進行顯示
11 img_array = np.array(img) # 將圖片轉換為數組
12 
13 wc = WordCloud(
14     background_color='white',
15     mask=img_array, # 若沒有該項，則生成預設圖片
16     font_path=font # 中文分詞必須有中文字體設置
17 )
18 wc.generate_from_text(cut_content) # 繪製圖片
19 wc.to_file('new.png') # 保存圖片

7. 實現效果

英文詞雲實現效果如下：

中文詞雲實現效果如下：

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

第一篇文章

這是我們的第一篇文章這是我們的網站假如以後的文章寫得”難以理解“，請多多體諒 ...
第二十節：詳細講解String和StringBuffer和StringBuilder的使用

前言在中的字元串屬於對象，那麼中提供了類來創建和操作字元串，即是使用對象；因為類修飾的字元一旦被創建就不可改變，所以當對字元串進行修改的時候，需要使用到和類。 String類接下來開始使用對象了，什麼是類呢？是用來修飾字元串的，字元串是一種特殊的對象，一旦初始化就不可被改變，用 ...
Eureka搭建

Eureka搭建一、Eureka基本框架搭建 ...
2.交互

前期基礎部分的交互方式為： username=input('username: ').strip() print(username,type(username)) ...
1.變數

1 什麼是變數量：記錄現實世界中的某種狀態變：記錄的狀態是需要經常變化的2 為什麼要有變數程式執行的本質就是一系列狀態的變化，變是程式執行的直接體現，所以我們需要有一種機制能夠反映或者說是保存下來程式執行時狀態以及狀態的變化。3 如何用變數 3.1、如何定義變數,變數定義分為三部分變數名: ...
JAVAEE——宜立方商城12：購物車實現、訂單確認頁面展示

1. 學習計劃第十二天： 1、購物車實現 2、訂單確認頁面展示 2. 購物車的實現 2.1. 功能分析 1、購物車是一個獨立的表現層工程。 2、添加購物車不要求登錄。可以指定購買商品的數量。 3、展示購物車列表頁面 4、修改購物車商品數量 5、刪除購物車商品 2.2. 工程搭建 e3-cart-w ...
Python日常7

面向對象： ...
C++知識點總結（純C++!!）

C++知識庫總結（用來記錄日常接觸到的C++知識點），將會持續更新 ...

Python 詞雲 【中/英】小白簡單入門教程

Python 詞雲【中/英】小白簡單入門教程