Python使用jieba分詞_ZenDei技術網路在線

Python使用jieba分詞

-Advertisement-

附加：另一種jieba分詞寫法：參考jieba中文分詞：https://github.com/fxsjy/jieba ##歡迎討論 ...

# -*- coding: utf-8 -*-
# Spyder (python 3.7)

import pandas as pd
import jieba
import jieba.analyse as anls

if __name__ == '__main__':  
    data = pd.read_excel(r'空氣指數評論.xlsx')
    # content為excel的列名
    opinion_content = data['content'].dropna().values
    all_word = ''
    for i in opinion_content: #形成整個字元串
        all_word = all_word +','+ str(i)
    all_word = all_word.strip()  #去掉字元串的空格
    all_word_upper = all_word.upper() #大寫

　　#載入詞典 #jieba.load_userdict(r"D:\Python_workspace\aaaa.txt")
  
　　#如果有不想被切分開的詞，例如王者榮耀，和平精英等，可以進行參數設置：tune=True
　　# jieba.analyse 是基於tf-idf演算法的關鍵詞抽取
    segment=['王者榮耀','和平精英']
    for ii in segment:
        jieba.suggest_freq(ii, tune=True)
    
    anls.set_stop_words("111.txt")  #載入停用詞文檔，網上可以下載或者自己創建
    tags = anls.extract_tags(all_word_upper, topK=None, withWeight=True)
    for x, w in tags:
        print('%s %s' % (x, w))
        
    for v, n in tags:
        #權重n是小數，乘了十萬成為整數，可以按需求設置不同值
        out_words= v + '\t' + str(int(n * 100000))
        #註意'a+'為追加寫入，因此如果重新運行程式，則需要先刪除上次生成的文件，結果保存在當前目錄下，可以更改目錄
        with open('.\cut_words_content.txt','a+',encoding='utf-8')as f:
            f.write(out_words+'\n')

附加：另一種jieba分詞寫法：

 sentence_seged = [seg for seg in jieba.cut(all_word) if len(seg) >= char_len]
# all_word為整個要分詞的字元串，該方式沒有利用到權重，是單純的分詞
# 返回的是分詞後的列表
# 分詞長度最少大於char_len

參考jieba中文分詞：https://github.com/fxsjy/jieba

##歡迎討論

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

設計模式之美—簡單工廠模式

簡單工廠模式簡單工廠模式分為三種：普通簡單工廠、多方法簡單工廠、靜態方法簡單工廠。普通工廠模式最近看了老酒館電視劇，深深被陳懷海他們的情懷所感動，當然裡面也有很多的酒，比如扳倒井，悶倒驢，跑舌頭，吹破天，二閨女，枕頭親。我們以酒為例：創建酒的介面： public interface Liqu ...
springboot windows10風格 activiti 整合項目框架源碼 shiro 安全框架 druid

官網：www.fhadmin.org 此項目為Springboot工作流版本 windows 風格,瀏覽器訪問操作使用，非桌面應用程式。 1.代碼生成器： [正反雙向](單表、主表、明細表、樹形表，快速開發利器) freemaker模版技術 ,0個代碼不用寫,生成完整的一個模塊,帶頁面、建表sql腳 ...
通俗易懂設計模式解析——策略模式

前言今天我們來看策略模式【Stragety Pattern【行為型】】，這個模式還是比較好理解的。策略怎麼理解呢？一般是指：1. 可以實現目標的方案集合；2. 根據形勢發展而制定的行動方針和鬥爭方法；3. 有鬥爭藝術，能註意方式方法。總的來說呢就是針對一個目的的不同的方法集合。這裡要講的策略模式怎 ...
設計模式之美—單例模式

單例模式什麼是單例？應用場景代碼實現餓漢式中國古代神話中有女媧補天一說，現在天破了，我們去求女媧補天。女媧用英語來說是 A Goddess In Chinese Mythology，意思就是神話中的女神，女媧是獨一無二的，現在我們就建一個女神類Goddess。神話中，我們都是女媧造出來 ...
結對編程（java實現）

作者：謝偉潔3117004673 一、Github項目地址： https://github.com/jack-xie460/mytest.git 二、PSP表格 PSP2.1 Personal Software Process Stages 預估耗時（分鐘）實際耗時（分鐘） Planning 計劃 ...
Java連載41-this關鍵字其他註意事項、static方法

一、this關鍵字 1.this在多數情況下都會省略 2.this不能用在含有static的方法之中。 3.static的方法的調用是不需要對象的，直接使用格式：類名.方法名；沒有當前對象，自然不能訪問當前對象的name。 4.在static方法之中不能直接訪問實例變數和實例方法，因為實例方法和實例 ...
Spring Boot 定時任務 @Scheduled

項目開發中經常需要執行一些定時任務，比如在每天凌晨，需要從 implala 資料庫拉取產品功能活躍數據，分析處理後存入到 MySQL 資料庫中。類似這樣的需求還有許多，那麼怎麼去實現定時任務呢，有以下幾種實現方式。 Java 定時任務的幾種實現方式基於 java.util.Timer 定時器，實現 ...
mybatis中一對一關係映射

一對一關係中普通的配置方式一.多表連接查詢語句: 1. 把所有的查詢結果，在一個resultMap中映射 2.使用【嵌套結果】ResultMap，實現一對一關係映射(就是說在一個resultMap中映射部分欄位，在另一個映射結果中關聯) 註:<association>是關聯的意思,常被用來表示(h ...