Python使用jieba分詞

来源:https://www.cnblogs.com/qi-yuan-008/archive/2019/10/16/11689530.html
-Advertisement-
Play Games

附加:另一種jieba分詞寫法: 參考jieba中文分詞:https://github.com/fxsjy/jieba ##歡迎討論 ...


# -*- coding: utf-8 -*-
# Spyder (python 3.7)
import pandas as pd
import jieba
import jieba.analyse as anls

if __name__ == '__main__':  
    data = pd.read_excel(r'空氣指數評論.xlsx')
    # content為excel的列名
    opinion_content = data['content'].dropna().values
    all_word = ''
    for i in opinion_content: #形成整個字元串
        all_word = all_word +','+ str(i)
    all_word = all_word.strip()  #去掉字元串的空格
    all_word_upper = all_word.upper() #大寫

  #載入詞典 #jieba.load_userdict(r"D:\Python_workspace\aaaa.txt")
  
  #如果有不想被切分開的詞,例如王者榮耀,和平精英等,可以進行參數設置:tune=True
  # jieba.analyse 是基於tf-idf演算法的關鍵詞抽取
    segment=['王者榮耀','和平精英']
    for ii in segment:
        jieba.suggest_freq(ii, tune=True)
    
    anls.set_stop_words("111.txt")  #載入停用詞文檔,網上可以下載或者自己創建
    tags = anls.extract_tags(all_word_upper, topK=None, withWeight=True)
    for x, w in tags:
        print('%s %s' % (x, w))
        
    for v, n in tags:
        #權重n是小數,乘了十萬成為整數,可以按需求設置不同值
        out_words= v + '\t' + str(int(n * 100000))
        #註意'a+'為追加寫入,因此如果重新運行程式,則需要先刪除上次生成的文件,結果保存在當前目錄下,可以更改目錄
        with open('.\cut_words_content.txt','a+',encoding='utf-8')as f:
            f.write(out_words+'\n')

附加:另一種jieba分詞寫法:

 sentence_seged = [seg for seg in jieba.cut(all_word) if len(seg) >= char_len]
# all_word為整個要分詞的字元串,該方式沒有利用到權重,是單純的分詞
# 返回的是分詞後的列表
# 分詞長度最少大於char_len

參考jieba中文分詞:https://github.com/fxsjy/jieba

##歡迎討論


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 簡單工廠模式 簡單工廠模式分為三種:普通簡單工廠、多方法簡單工廠、靜態方法簡單工廠。 普通工廠模式 最近看了老酒館電視劇,深深被陳懷海他們的情懷所感動,當然裡面也有很多的酒,比如扳倒井,悶倒驢,跑舌頭,吹破天,二閨女,枕頭親。我們以酒為例: 創建酒的介面: public interface Liqu ...
  • 官網:www.fhadmin.org 此項目為Springboot工作流版本 windows 風格,瀏覽器訪問操作使用,非桌面應用程式。 1.代碼生成器: [正反雙向](單表、主表、明細表、樹形表,快速開發利器) freemaker模版技術 ,0個代碼不用寫,生成完整的一個模塊,帶頁面、建表sql腳 ...
  • 前言 今天我們來看策略模式【Stragety Pattern【行為型】】,這個模式還是比較好理解的。策略怎麼理解呢?一般是指:1. 可以實現目標的方案集合;2. 根據形勢發展而制定的行動方針和鬥爭方法;3. 有鬥爭藝術,能註意方式方法。總的來說呢就是針對一個目的的不同的方法集合。這裡要講的策略模式怎 ...
  • 單例模式 什麼是單例? 應用場景 代碼實現 餓漢式 中國古代神話中有女媧補天一說,現在天破了,我們去求女媧補天。 女媧用英語來說是 A Goddess In Chinese Mythology,意思就是神話中的女神,女媧是獨一無二的,現在我們就建一個女神類Goddess。 神話中,我們都是女媧造出來 ...
  • 作者:謝偉潔3117004673 一、Github項目地址: https://github.com/jack-xie460/mytest.git 二、PSP表格 PSP2.1 Personal Software Process Stages 預估耗時(分鐘) 實際耗時(分鐘) Planning 計劃 ...
  • 一、this關鍵字 1.this在多數情況下都會省略 2.this不能用在含有static的方法之中。 3.static的方法的調用是不需要對象的,直接使用格式:類名.方法名;沒有當前對象,自然不能訪問當前對象的name。 4.在static方法之中不能直接訪問實例變數和實例方法,因為實例方法和實例 ...
  • 項目開發中經常需要執行一些定時任務,比如在每天凌晨,需要從 implala 資料庫拉取產品功能活躍數據,分析處理後存入到 MySQL 資料庫中。類似這樣的需求還有許多,那麼怎麼去實現定時任務呢,有以下幾種實現方式。 Java 定時任務的幾種實現方式 基於 java.util.Timer 定時器,實現 ...
  • 一對一關係中普通的配置方式 一.多表連接查詢語句: 1. 把所有的查詢結果,在一個resultMap中映射 2.使用【嵌套結果】ResultMap,實現一對一關係映射(就是說在一個resultMap中映射部分欄位,在另一個映射結果中關聯) 註:<association>是關聯的意思,常被用來表示(h ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...