python中文分詞，使用結巴分詞對python進行分詞

-Advertisement-

在採集美女站時,需要對關鍵詞進行分詞,最終採用的是python的結巴分詞方法. 中文分詞是中文文本處理的一個基礎性工作，結巴分詞利用進行中文分詞。其基本實現原理有三點：安裝（Linux環境）下載工具包，解壓後進入目錄下，運行：python setup.py install 模式介面組件只提供 ...

在採集美女站時,需要對關鍵詞進行分詞,最終採用的是python的結巴分詞方法.

中文分詞是中文文本處理的一個基礎性工作，結巴分詞利用進行中文分詞。其基本實現原理有三點：

基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)
採用了動態規劃查找最大概率路徑, 找出基於詞頻的最大切分組合
對於未登錄詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi演算法

安裝（Linux環境）

下載工具包，解壓後進入目錄下，運行：python setup.py install

模式

預設模式，試圖將句子最精確地切開，適合文本分析
全模式，把句子中所有的可以成詞的詞語都掃描出來，適合搜索引擎

介面

組件只提供jieba.cut 方法用於分詞
cut方法接受兩個輸入參數：
- 　　第一個參數為需要分詞的字元串
- 　　cut_all參數用來控制分詞模式
待分詞的字元串可以是gbk字元串、utf-8字元串或者unicode
jieba.cut返回的結構是一個可迭代的generator，可以使用for迴圈來獲得分詞後得到的每一個詞語(unicode)，也可以用list(jieba.cut(...))轉化為list
seg=jieba.cut("http://www.gg4493.cn/"):

實例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我來到北京清華大學", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我來到北京清華大學")
print "Default Mode:", ' '.join(seg_list)

結果

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

基礎技能樹-22 基於數組實現數據結構

本節內容 - 開篇 - 棧(Stack) - 隊列(Queue) - 緩衝區(Pool) - 鏈表(Linked List) ...
Python 零基礎快速入門趣味教程 (咪博士海龜繪圖 turtle) 0. 準備工作

一、關於 Python Python 是全球使用人數增長最快的編程語言！它易於入門、功能強大，從 Web 後端到數據分析、人工智慧，到處都能看到 Python 的身影。 Python 有兩個主要的版本 Python 2.x 和 Python 3.x。咪博士推薦大家學習 Python 3.x。本系 ...
java數據結構面試問題—快慢指針問題

上次我們學習了環形鏈表的數據結構，那麼接下來我們來一起看看下麵的問題，判斷一個單向鏈表是否是環形鏈表？看到這個問題，有人就提出了進行遍歷鏈表，記住第一元素，當我們遍歷後元素再次出現則是說明是環形鏈表，如果沒有這是一個單向非環形鏈表。我們來分析下上述的解決方法，我們分析這個程式的時間複雜度則是O ...
使用QNetworkAccessManager實現Qt的FTP下載服務

使用QNetworkAccessManager實現Qt的FTP下載操作，此外包含以下功能：（1）添加下載超時操作；（2）大文件分割下載。附加C++實現命令行輸出進度條實現代碼。 ...
Python如何將RGB圖像轉換為Pytho灰度圖像？

問題：我正嘗試使用matplotlib讀取RGB圖像並將其轉換為灰度。在matlab中，我使用這個： 1 img = rgb2gray(imread('image.png')); 1 img = rgb2gray(imread('image.png')); 1 img = rgb2gray(imr ...
如何在Django模板中包含圖像文件？

我是Django的新手，我試圖通過我正在開發的一個簡單的項目“dubliners”和一個名為“book”的應用程式來學習它。目錄結構如下所示： 1 2 dubliners/book/ [includes models.py, views.py, etc.] dubliners/templates/b ...
[深度學習]實現一個博弈型的AI，從五子棋開始（1）

最近AlphaGo Zero的發佈，深度學習又火了一把，小伙伴們按捺不住內心的躁動，要搞一個游戲AI，好吧，那就從規則簡單、老少皆宜的五子棋開始講起。要做AI，得現有場景，所以本文先實現一個五子棋的邏輯。 ...
Python中import機制

Python語言中import的使用很簡單，直接使用import module_name語句導入即可。這裡我主要寫一下"import"的本質。 Python官方定義：Python code in one module gains access to the code in another modul ...