MySQL 備忘清單 MySQL是一種關係型資料庫管理系統,關係資料庫將數據保存在不同的表中,而不是將所有數據放在一個大倉庫內,這樣就增加了速度並提高了靈活性。 MySQL所使用的 SQL 語言是用於訪問資料庫的最常用標準化語言。MySQL 軟體採用了雙授權政策,分為社區版和商業版,由於其體積小、速 ...
1.介紹
jieba是優秀的中文分詞第三方庫。由於中文文本之間每個漢字都是連續書寫的,我們需要通過特定的手段來獲得其中的每個單詞,這種手段就叫分詞。而jieba是Python計算生態中非常優秀的中文分詞第三方庫,需要通過安裝來使用它。
jieba庫提供了三種分詞模式,但實際上要達到分詞效果只要掌握一個函數就足夠了,非常的簡單有效。
安裝第三方庫需要使用pip工具,在命令行下運行安裝命令(不是IDLE)。註意:需要將Python目錄和其目錄下的Scripts目錄加到環境變數中。
使用命令pip install jieba安裝第三方庫,安裝之後會提示successfully installed,告知是否安裝成功。
分詞原理:
簡單來說,jieba庫是通過中文詞庫的方式來識別分詞的。它首先利用一個中文詞庫,通過詞庫計算漢字之間構成詞語的關聯概率,所以通過計算漢字之間的概率,就可以形成分詞的結果。當然,除了jieba自帶的中文詞庫,用戶也可以向其中增加自定義的片語,從而使jieba的分詞更接近某些具體領域的使用。
2.使用說明
jieba分詞有三種模式:精確模式、全模式和搜索引擎模式。
簡單說,精確模式就是把一段文本精確的切分成若幹個中文單詞,若幹個中文單詞之間經過組合就精確的還原為之前的文本,其中不存在冗餘單詞。精確模式是最常用的分詞模式。
進一步jieba又提供了全模式,全模式是把一段中文文本中所有可能的詞語都掃描出來,可能有一段文本它可以切分成不同的模式或者有不同的角度來切分變成不同的詞語,那麼jieba在全模式下把這樣的不同的組合都挖掘出來,所以如果用全模式來進行分詞,分詞的信息組合起來並不是精確的原有文本,會有很多的冗餘。
而搜索引擎模式更加智能,它是在精確模式的基礎上對長詞進行再次切分,將長的詞語變成更短的詞語,進而適合搜索引擎對短詞語的索引和搜索,在一些特定場合用的比較多。
jieba庫提供的常用函數:
- jieba.lcut(s)
精確模式,能夠對一個字元串精確地返回分詞結果,而分詞的結果使用列表形式來組織。例如:
>>> import jieba
>>> jieba.lcut("中國是一個偉大的國家")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 2.489 seconds.
Prefix dict has been built successfully.
['中國', '是', '一個', '偉大', '的', '國家']
- jieba.lcut(s,cut_all=True)
全模式,能夠返回一個列表類型的分詞結果,但結果存在冗餘。例如:
>>> import jieba #Python小白學習交流群:725638078
>>> jieba.lcut("中國是一個偉大的國家",cut_all=True)
['中國', '國是', '一個', '偉大', '的', '國家']
jieba.lcut_for_search(s)
搜索引擎模式,能夠返回一個列表類型的分詞結果,也存在冗餘。例如:
>>> import jieba
>>> jieba.lcut_for_search("中華人民共和國是偉大的")
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']
- jieba.add_word(w)
向分詞詞庫添加新詞w
最重要的就是jieba.lcut(s)函數,完成精確的中文分詞。