Python中文分詞庫——jieba的用法

来源:https://www.cnblogs.com/xxpythonxx/archive/2023/04/25/17353158.html
-Advertisement-
Play Games

MySQL 備忘清單 MySQL是一種關係型資料庫管理系統,關係資料庫將數據保存在不同的表中,而不是將所有數據放在一個大倉庫內,這樣就增加了速度並提高了靈活性。 MySQL所使用的 SQL 語言是用於訪問資料庫的最常用標準化語言。MySQL 軟體採用了雙授權政策,分為社區版和商業版,由於其體積小、速 ...


1.介紹

jieba是優秀的中文分詞第三方庫。由於中文文本之間每個漢字都是連續書寫的,我們需要通過特定的手段來獲得其中的每個單詞,這種手段就叫分詞。而jieba是Python計算生態中非常優秀的中文分詞第三方庫,需要通過安裝來使用它。

jieba庫提供了三種分詞模式,但實際上要達到分詞效果只要掌握一個函數就足夠了,非常的簡單有效。

安裝第三方庫需要使用pip工具,在命令行下運行安裝命令(不是IDLE)。註意:需要將Python目錄和其目錄下的Scripts目錄加到環境變數中。

使用命令pip install jieba安裝第三方庫,安裝之後會提示successfully installed,告知是否安裝成功。

分詞原理:
簡單來說,jieba庫是通過中文詞庫的方式來識別分詞的。它首先利用一個中文詞庫,通過詞庫計算漢字之間構成詞語的關聯概率,所以通過計算漢字之間的概率,就可以形成分詞的結果。當然,除了jieba自帶的中文詞庫,用戶也可以向其中增加自定義的片語,從而使jieba的分詞更接近某些具體領域的使用。

2.使用說明

jieba分詞有三種模式:精確模式、全模式和搜索引擎模式。

簡單說,精確模式就是把一段文本精確的切分成若幹個中文單詞,若幹個中文單詞之間經過組合就精確的還原為之前的文本,其中不存在冗餘單詞。精確模式是最常用的分詞模式。

進一步jieba又提供了全模式,全模式是把一段中文文本中所有可能的詞語都掃描出來,可能有一段文本它可以切分成不同的模式或者有不同的角度來切分變成不同的詞語,那麼jieba在全模式下把這樣的不同的組合都挖掘出來,所以如果用全模式來進行分詞,分詞的信息組合起來並不是精確的原有文本,會有很多的冗餘。

而搜索引擎模式更加智能,它是在精確模式的基礎上對長詞進行再次切分,將長的詞語變成更短的詞語,進而適合搜索引擎對短詞語的索引和搜索,在一些特定場合用的比較多。

jieba庫提供的常用函數:

  • jieba.lcut(s)

精確模式,能夠對一個字元串精確地返回分詞結果,而分詞的結果使用列表形式來組織。例如:

>>> import jieba
>>> jieba.lcut("中國是一個偉大的國家")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 2.489 seconds.
Prefix dict has been built successfully.
['中國', '是', '一個', '偉大', '的', '國家']
  • jieba.lcut(s,cut_all=True)

全模式,能夠返回一個列表類型的分詞結果,但結果存在冗餘。例如:

>>> import jieba #Python小白學習交流群:725638078
>>> jieba.lcut("中國是一個偉大的國家",cut_all=True)
['中國', '國是', '一個', '偉大', '的', '國家']

jieba.lcut_for_search(s)

搜索引擎模式,能夠返回一個列表類型的分詞結果,也存在冗餘。例如:

>>> import jieba
>>> jieba.lcut_for_search("中華人民共和國是偉大的")
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']
  • jieba.add_word(w)

向分詞詞庫添加新詞w

最重要的就是jieba.lcut(s)函數,完成精確的中文分詞。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 服務啟動超時控制 問題描述: 服務有時存在等待很長時間起不來的情況,需要手動kill掉進程,然後再起一遍。 1 使用timeout指定命令運行的超時時間 timeout 30s java -jar while-1.0-SNAPSHOT.jar 腳本 #!/bin/bash timeout 30s j ...
  • 本文首發於公眾號:Hunter後端 原文鏈接:Django筆記三十之log日誌的記錄詳解 這一節介紹在 Django 系統里使用 logging 記錄日誌 以下是一個簡單的 logging 模塊示例,可以先預覽一下,接下來會詳細介紹各個模塊的具體功能: LOGGING = { 'version': ...
  • 在各種棋中,棋子的走法總是一定的,如中國象棋中馬走“日”。有一位小學生就想如果馬能有兩種走法將增加其趣味性,因此,他規定馬既能按“日”走,也能如象一樣走“田”字。他的同桌平時喜歡下圍棋,知道這件事後覺得很有趣,就想試一試,在一個(100*100)的圍棋盤上任選兩點A、B,A點放上黑子,B點放上白子, ...
  • 自動裝配: pom.xml spring-boot-dependence:核心都依賴在父類工程中! 我們在寫入或者引入springboot依賴的時候,不需要指定版,因為有這些倉庫的版本 啟動器: spring boot的啟動場景 比如spring-boot-starter-web,他就會幫我們導入w ...
  • 原文: https://bysocket.com/midjourney-register/ 先推薦一個 PromptHero 中文官網 https://promptheroes.cn/ :Prompt Heroes 官網是提供 AI 繪畫相關提示詞中文網站,包括 Midjourney(MJ)、 St ...
  • 0. ray 簡介 ray是開源分散式計算框架,為並行處理提供計算層,用於擴展AI與Python應用程式,是ML工作負載統一工具包 Ray AI Runtime ML應用程式庫集 Ray Core 通用分散式計算庫 Task -- Ray允許任意Python函數在單獨的Python worker上運 ...
  • ###淺拷貝的問題 預設提供的拷貝構造就是淺拷貝,如果拷貝的對象中含有成員指針變數指向堆區中的記憶體空間,那麼就會出現兩個對象中的成員指針變數指向同一塊堆區空間,當方法執行結束後,對象就會被釋放,調用析構函數(析構函數中存在釋放在堆區開闢的記憶體空間),就會存在一塊記憶體空間被多次釋放的問題。 ###解決 ...
  • 一、背景 Hi,大家!我是 @馬哥python說 ,一名10年程式猿。 今天我來演示一下:通過百度AI開放平臺,利用python調用百度介面進行中文情感傾向分析,並得出情感極性分為積極、消極還是中性以及置信度結果。 二、操作步驟 首先,打開百度AI首頁:百度AI開放平臺-全球領先的人工智慧服務平臺 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...