Python中文分詞庫——jieba的用法

-Advertisement-

MySQL 備忘清單 MySQL是一種關係型資料庫管理系統，關係資料庫將數據保存在不同的表中，而不是將所有數據放在一個大倉庫內，這樣就增加了速度並提高了靈活性。 MySQL所使用的 SQL 語言是用於訪問資料庫的最常用標準化語言。MySQL 軟體採用了雙授權政策，分為社區版和商業版，由於其體積小、速 ...

1.介紹

jieba是優秀的中文分詞第三方庫。由於中文文本之間每個漢字都是連續書寫的，我們需要通過特定的手段來獲得其中的每個單詞，這種手段就叫分詞。而jieba是Python計算生態中非常優秀的中文分詞第三方庫，需要通過安裝來使用它。

jieba庫提供了三種分詞模式，但實際上要達到分詞效果只要掌握一個函數就足夠了，非常的簡單有效。

安裝第三方庫需要使用pip工具，在命令行下運行安裝命令（不是IDLE）。註意：需要將Python目錄和其目錄下的Scripts目錄加到環境變數中。

使用命令pip install jieba安裝第三方庫，安裝之後會提示successfully installed，告知是否安裝成功。

分詞原理：
簡單來說，jieba庫是通過中文詞庫的方式來識別分詞的。它首先利用一個中文詞庫，通過詞庫計算漢字之間構成詞語的關聯概率，所以通過計算漢字之間的概率，就可以形成分詞的結果。當然，除了jieba自帶的中文詞庫，用戶也可以向其中增加自定義的片語，從而使jieba的分詞更接近某些具體領域的使用。

2.使用說明

jieba分詞有三種模式：精確模式、全模式和搜索引擎模式。

簡單說，精確模式就是把一段文本精確的切分成若幹個中文單詞，若幹個中文單詞之間經過組合就精確的還原為之前的文本，其中不存在冗餘單詞。精確模式是最常用的分詞模式。

進一步jieba又提供了全模式，全模式是把一段中文文本中所有可能的詞語都掃描出來，可能有一段文本它可以切分成不同的模式或者有不同的角度來切分變成不同的詞語，那麼jieba在全模式下把這樣的不同的組合都挖掘出來，所以如果用全模式來進行分詞，分詞的信息組合起來並不是精確的原有文本，會有很多的冗餘。

而搜索引擎模式更加智能，它是在精確模式的基礎上對長詞進行再次切分，將長的詞語變成更短的詞語，進而適合搜索引擎對短詞語的索引和搜索，在一些特定場合用的比較多。

jieba庫提供的常用函數：

jieba.lcut(s)

精確模式，能夠對一個字元串精確地返回分詞結果，而分詞的結果使用列表形式來組織。例如：

>>> import jieba
>>> jieba.lcut("中國是一個偉大的國家")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 2.489 seconds.
Prefix dict has been built successfully.
['中國', '是', '一個', '偉大', '的', '國家']

jieba.lcut(s,cut_all=True)

全模式，能夠返回一個列表類型的分詞結果，但結果存在冗餘。例如：

>>> import jieba #Python小白學習交流群：725638078
>>> jieba.lcut("中國是一個偉大的國家",cut_all=True)
['中國', '國是', '一個', '偉大', '的', '國家']

jieba.lcut_for_search(s)

搜索引擎模式，能夠返回一個列表類型的分詞結果，也存在冗餘。例如：

>>> import jieba
>>> jieba.lcut_for_search("中華人民共和國是偉大的")
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']

jieba.add_word(w)

向分詞詞庫添加新詞w

最重要的就是jieba.lcut(s)函數，完成精確的中文分詞。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

服務啟動超時控制

服務啟動超時控制問題描述：服務有時存在等待很長時間起不來的情況，需要手動kill掉進程，然後再起一遍。 1 使用timeout指定命令運行的超時時間 timeout 30s java -jar while-1.0-SNAPSHOT.jar 腳本 #!/bin/bash timeout 30s j ...
OGC標準介面學習

本文首發於公眾號：Hunter後端原文鏈接：Django筆記三十之log日誌的記錄詳解這一節介紹在 Django 系統里使用 logging 記錄日誌以下是一個簡單的 logging 模塊示例，可以先預覽一下，接下來會詳細介紹各個模塊的具體功能： LOGGING = { 'version': ...
最少步數

在各種棋中，棋子的走法總是一定的，如中國象棋中馬走“日”。有一位小學生就想如果馬能有兩種走法將增加其趣味性，因此，他規定馬既能按“日”走，也能如象一樣走“田”字。他的同桌平時喜歡下圍棋，知道這件事後覺得很有趣，就想試一試，在一個（100*100）的圍棋盤上任選兩點A、B，A點放上黑子，B點放上白子， ...
springboot自動裝配大概原理

自動裝配： pom.xml spring-boot-dependence：核心都依賴在父類工程中！我們在寫入或者引入springboot依賴的時候，不需要指定版，因為有這些倉庫的版本啟動器： spring boot的啟動場景比如spring-boot-starter-web，他就會幫我們導入w ...
Midjourney 註冊 12 步流程教學

原文： https://bysocket.com/midjourney-register/ 先推薦一個 PromptHero 中文官網 https://promptheroes.cn/ ：Prompt Heroes 官網是提供 AI 繪畫相關提示詞中文網站，包括 Midjourney（MJ）、 St ...
ray-分散式計算框架-集群與非同步Job管理

0. ray 簡介 ray是開源分散式計算框架，為並行處理提供計算層，用於擴展AI與Python應用程式，是ML工作負載統一工具包 Ray AI Runtime ML應用程式庫集 Ray Core 通用分散式計算庫 Task -- Ray允許任意Python函數在單獨的Python worker上運 ...
C++深拷貝與淺拷貝

###淺拷貝的問題預設提供的拷貝構造就是淺拷貝，如果拷貝的對象中含有成員指針變數指向堆區中的記憶體空間，那麼就會出現兩個對象中的成員指針變數指向同一塊堆區空間，當方法執行結束後，對象就會被釋放，調用析構函數(析構函數中存在釋放在堆區開闢的記憶體空間)，就會存在一塊記憶體空間被多次釋放的問題。 ###解決 ...
Java中為什麼重寫equals()也需要重寫hashCode()?

一、背景 Hi，大家！我是 @馬哥python說，一名10年程式猿。今天我來演示一下：通過百度AI開放平臺，利用python調用百度介面進行中文情感傾向分析，並得出情感極性分為積極、消極還是中性以及置信度結果。二、操作步驟首先，打開百度AI首頁：百度AI開放平臺-全球領先的人工智慧服務平臺 ...