python 基礎教程：使用jieba庫對文本進行分詞

-Advertisement-

一、jieba庫是什麼？ Python的jieba庫是一個中文分詞工具，它可以將一段中文文本分割成一個一個的詞語，方便後續的自然語言處理任務，如文本分類、情感分析等。jieba庫使用了基於首碼詞典的分詞方法，能夠處理中文的各種複雜情況，如歧義詞、新詞等。它還提供了多種分詞模式，如精確模式、全模式、搜 ...

一、jieba庫是什麼？

Python的jieba庫是一個中文分詞工具，它可以將一段中文文本分割成一個一個的詞語，方便後續的自然語言處理任務，如文本分類、情感分析等。jieba庫使用了基於首碼詞典的分詞方法，能夠處理中文的各種複雜情況，如歧義詞、新詞等。它還提供了多種分詞模式，如精確模式、全模式、搜索引擎模式等，以適應不同場景的需求。此外，jieba庫還支持用戶自定義詞典，使得分詞結果更加準確。

二、安裝jieba庫

 pip install jieba

三、查看jieba版本

 pip show jieba

Name: jieba
Version: 0.42.1
Summary: Chinese Words Segmentation Utilities
Home-page: https://github.com/fxsjy/jieba
Author: Sun, Junyi
Author-email: [email protected]
License: MIT
Requires:
Required-by:

四、使用方法

1.引入庫

import jieba

2.定義需要分詞的文本

text = "我愛發動態，我喜歡使用搜索引擎模式進行分詞"

# 對於剛學Python的小伙伴，我還給大家準備了Python基礎教程、數百本電子書
# 直接在這個Q裙自取即可：279199867

3.使用分詞模式進行分詞

3.1、精確模式(預設)
試圖將句子最精確地切開，適合文本分析。

seg_list = jieba.cut(text)

3.2、全模式
把句子中所有的可能成詞的詞語都掃描出來，速度很快，但是不能解決歧義。

seg_list = jieba.cut(text, cut_all=True)

3.3、搜索引擎模式
在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜索引擎分詞。

seg_list = jieba.cut_for_search(text)

4.將分詞結果轉換為列表

word_list = list(seg_list)

5.列印分詞結果

print(word_list)

6.分詞效果對比

6.1、精確模式(預設)

['我愛發', '動態', '，', '我', '喜歡', '使用', '搜索引擎', '模式', '進行', '分詞']

6.2、全模式

['我', '愛', '發動', '動態', '，', '我', '喜歡', '使用', '搜索', '搜索引擎', '索引', '引擎', '模式', '進行', '分詞']

6.3、搜索引擎模式

['我愛發', '動態', '，', '我', '喜歡', '使用', '搜索', '索引', '引擎', '搜索引擎', '模式', '進行', '分詞']

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

利用簡單的IO操作實現M3U8文件之間的合併

我是 javapub，一名 Markdown 程式員從👨‍💻，八股文種子選手。面試官：小伙子,說實話,泛型這個機制一開始我也是一頭霧水,搞不太明白它到底要解決什麼問題。你能不能不那麼書呆子,給我普普通通地講一講泛型? 候選人：好嘞,我們來聊聊泛型。首先,泛型要解決的最主要的問題就是類型不安全 ...
IDEA配合Docker插件進行一鍵部署

1、系統清理工具去年騰訊開源了一個系統清理工具：騰訊檸檬清理，該軟體可以系統性解決 macOS 設備空間問題。重點聚焦清理功能，對上百款軟體提供定製化的清理方案，提供專業的清理建議，幫助用戶輕鬆完成一鍵式的清理。主要功能包括：深度掃描清理、大文件清理、重覆文件清理、相似照片清理、瀏覽器隱私清理 ...
Java IO流 flush()的作用和緩衝流

Java 緩衝流和flush()的作用哪些流是緩衝流，哪些流帶有緩衝區？根據Java官方文檔關於Buffered Streams的介紹，緩衝流有四種： BufferedInputStream：包裝位元組輸入流 BufferedOutputStream：包裝位元組輸出流 BufferedReader： ...
java 獲取ip

獲取ip信息 public static String getRealIp(HttpServletRequest request) { String ip = request.getHeader("x-forwarded-for"); if (ip == null || ip.length() == ...
【pandas基礎】--數據修改

pandas 作為一種常用的數據分析工具，提供了廣泛的數據修改方法。既可以針對行或者列的數據進行修改，也可以對具體單個元素進行修改，還可以基於條件選擇要修改的行或者列的數據。 1. 增加數據 1.1 增加行數據 pandas的DataFrame增加一行或者多行數據之前是使用append方法。 im ...
Python多線程爬取鏈家房源，保存表格，實現數據可視化分析！

使用Python來爬取二手房源數據，並保存表格，實現數據分析！軟體環境 Python 3.8 Pycharm 代碼展示模塊 # 數據請求模塊 --> 第三方模塊, 需要安裝 pip install requests import requests # 解析數據模塊 --> 第三方模塊, 需要安裝 ...
Spring源碼：Bean生命周期（五）

在今天的文章中，我們將深入探討 Bean 的屬性註入和初始化流程，從而使其成為一個真正意義上的 Bean。這個過程包括屬性註入、Aware 介面回調、BeanPostProcessor 的前置和後置處理等多個步驟，通過本文的學習，讀者將能夠更深入地瞭解 Spring 框架中 Bean 的屬性註入和初... ...
Java網路編程----通過實現簡易聊天工具來聊聊BIO

IO模型即輸入輸出模型，我們今天主要來聊的是java網路編程中的IO模型 BIO模型。BIO即阻塞式IO，Blocking IOblocking [ˈblɒkɪŋ] v. 堵塞; 阻塞; 堵住(某人的路等); 擋住(某人的視線等); 妨礙; 阻礙;那究竟什麼是阻塞呢？這裡的阻塞和多線程併發控制中，對 ...