一、jieba庫是什麼? Python的jieba庫是一個中文分詞工具,它可以將一段中文文本分割成一個一個的詞語,方便後續的自然語言處理任務,如文本分類、情感分析等。jieba庫使用了基於首碼詞典的分詞方法,能夠處理中文的各種複雜情況,如歧義詞、新詞等。它還提供了多種分詞模式,如精確模式、全模式、搜 ...
一、jieba庫是什麼?
Python的jieba庫是一個中文分詞工具,它可以將一段中文文本分割成一個一個的詞語,方便後續的自然語言處理任務,如文本分類、情感分析等。jieba庫使用了基於首碼詞典的分詞方法,能夠處理中文的各種複雜情況,如歧義詞、新詞等。它還提供了多種分詞模式,如精確模式、全模式、搜索引擎模式等,以適應不同場景的需求。此外,jieba庫還支持用戶自定義詞典,使得分詞結果更加準確。
二、安裝jieba庫
pip install jieba
三、查看jieba版本
pip show jieba
Name: jieba
Version: 0.42.1
Summary: Chinese Words Segmentation Utilities
Home-page: https://github.com/fxsjy/jieba
Author: Sun, Junyi
Author-email: [email protected]
License: MIT
Requires:
Required-by:
四、使用方法
1.引入庫
import jieba
2.定義需要分詞的文本
text = "我愛發動態,我喜歡使用搜索引擎模式進行分詞" # 對於剛學Python的小伙伴,我還給大家準備了Python基礎教程、數百本電子書 # 直接在這個Q裙自取即可:279199867
3.使用分詞模式進行分詞
3.1、精確模式(預設)
試圖將句子最精確地切開,適合文本分析。
seg_list = jieba.cut(text)
3.2、全模式
把句子中所有的可能成詞的詞語都掃描出來,速度很快,但是不能解決歧義。
seg_list = jieba.cut(text, cut_all=True)
3.3、搜索引擎模式
在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜索引擎分詞。
seg_list = jieba.cut_for_search(text)
4.將分詞結果轉換為列表
word_list = list(seg_list)
5.列印分詞結果
print(word_list)
6.分詞效果對比
6.1、精確模式(預設)
['我愛發', '動態', ',', '我', '喜歡', '使用', '搜索引擎', '模式', '進行', '分詞']
6.2、全模式
['我', '愛', '發動', '動態', ',', '我', '喜歡', '使用', '搜索', '搜索引擎', '索引', '引擎', '模式', '進行', '分詞']
6.3、搜索引擎模式
['我愛發', '動態', ',', '我', '喜歡', '使用', '搜索', '索引', '引擎', '搜索引擎', '模式', '進行', '分詞']