基於電影知識圖譜的智能問答系統 --HanLP分詞器

来源:https://www.cnblogs.com/h12l4/archive/2018/05/19/9060475.html
-Advertisement-
Play Games

一、什麼是分詞器? 分詞器,是將用戶輸入的一段文本,分析成符合邏輯的一種工具。到目前為止呢,分詞器沒有辦法做到完全的符合人們的要求。和我們有關的分詞器有英文的和中文的分詞器:輸入文本-關鍵詞切分-去停用詞-形態還原-轉為小寫中文的分詞器分為: 單子分詞 例:中國人 分成中,國,人 二分法人詞 例:中 ...


一、什麼是分詞器?

 

       分詞器,是將用戶輸入的一段文本,分析成符合邏輯的一種工具。到目前為止呢,分詞器沒有辦法做到完全的符合人們的要求。和我們有關的分詞器有英文的和中文的分詞器:輸入文本-關鍵詞切分-去停用詞-形態還原-轉為小寫中文的分詞器分為:

單子分詞    例:中國人 分成中,國,人

二分法人詞 例:中國人 分成中國,國人

詞典分詞    例:中國人 分成中國,國人,中國人

現在用的是極易分詞和庖丁分詞

停用詞:不影響語意的詞

 

分詞器有很多,比如中文分詞器 IK Analyzer,有興趣的可以看我的另一篇博文,其中有介紹它和Solr的結合使用

 

地址:Solr 7.2.1 配置中文分詞器 IK Analyzer

 歡迎你加入  邀請碼  靈狐

 

 

二、什麼是HanLP分詞器?

 

 

首先:分詞器≠自然語言處理!

其次:HanLP也是一種分詞器

最後:HanLP不僅能夠分詞,而且還可以標註單詞的詞性(這個很關鍵的,後面章節會再次講到這個特性)

 

線上演示:http://hanlp.hankcs.com/

 

 

比如,在Java中隨便來個句子使用HanLP進行分詞如下:

 

 

這裡我們還額外添加了自己的分詞,比如好熱啊中的“好熱”,我們添加後並標註其詞性為ng,當然ng是我們隨便起的

 

執行這段代碼,分詞效果如下

 

 

 

這種詞性標註有什麼好處呢?  == 比如,所有人名均可以用nr這個標簽來替代,思考下如下3個問題

 

1、張學友的生日是什麼時候

2、鞏俐的生日是什麼時候

3、成龍的生日是什麼時候

 

如果用HanLP分詞後,相信 張學友 、鞏俐、成龍的詞性均是nr,不信的話,請看下麵的截圖

 

 

為什麼HanLP會有這種能力呢? (博文下麵會講到如何在Spring-Boot項目中集成HanLP)

 

因為其有一堆的字/詞典數據集,其中就包括了人名這個dict,如下

 

 

因此,針對1、2、3的問題,我們可以將其做成一個問題模板,如下

 

nr的生日是什麼時候

 

於是乎,不管你問上述三個哪一個問題,我得到最終答案的步驟如下:

 

1、拿到原始句子(問題)

2、對原句子進行抽象,將人名用nr替換並抽象句子,比如張學友的生日是多少替換成nr的生日是多少

3、抽象句子匹配問題模板(一堆問題數據集合由Spark進行訓練並計算),比如 nr 生日

4、問題模板還原成最終的問題,比如 nr 生日,替換其中的nr=張學友,最後效果就是 張學友 生日

5、拿到問題後,去圖形資料庫neo4j中查找問題的答案,比如

 

 

 

項目中使用HanLP+Spark的效果如下

 

 

 

前端展示如下

 

 

 

 

三、HanLP下載安裝

 

 

官網下載地址:HanLP-漢語言處理包

 

這裡我們採用第二種方式下載

 

 

 

 

 

(1)由於我們要集成到Spring-Boot中,因此,我們不需要下載jar包,而是通過pom依賴進行jar添加,而這裡,我們需要下載hanlp的配置文件

 

 

 

(2)下載完配置文件後,我們需要下載HanLP的字典數據集

 

github下載地址:https://github.com/hankcs/HanLP/releases

 

打開地址,我們找到數據包的下載鏈接:

 

 

 

 

這個數據集有點大,下載會慢一點,請耐心等待下載完成

 

 

 

 

(3)上述兩步完成後,接下來就是集成到我們的項目中使用了

 

 

 

 

四、Spring-Boot集成HanLP

 

 

(1)pom依賴

 

 

[html] view plain copy  
  1. <!-- JUnit單元測試 -->  
  2. <dependency>  
  3.     <groupId>junit</groupId>  
  4.     <artifactId>junit</artifactId>  
  5. </dependency>  
  6. <!-- HanLP漢語言處理包 -->  
  7. <dependency>  
  8.     <groupId>com.hankcs</groupId>  
  9.     <artifactId>hanlp</artifactId>  
  10.     <version>portable-1.6.3</version>  
  11. </dependency>  

 

 

(2)添加HanLP屬性配置文件【基於上述下載下來的】

 

 

 

 

 

 

(3)hanlp.properties屬性文件說明

 

其實也沒有上面好說明的,文件裡面的註釋已經很詳細了,唯一註意一點的是這個地方:

 

!每次更新自定義的新詞典xxx.txt的內容時,要刪除同目錄下的詞典緩存文件CustomDictionary.txt.bin!

 

刪除後,重啟項目會報一個警告的錯誤,我們不用理會,由於HanLP會載入數據集到記憶體中,因此啟動的過程會有點慢,等待HanLP載入完數據後,我們就可以使用它了

 

 

 

 

 

 

五、HanLP單元測試

 

 

HanLPTest.java

 

[java] view plain copy  
  1. import com.hankcs.hanlp.HanLP;  
  2. import com.hankcs.hanlp.dictionary.CustomDictionary;  
  3. import com.hankcs.hanlp.seg.Segment;  
  4. import com.hankcs.hanlp.seg.common.Term;  
  5.   
  6. public class HanLPTest {  
  7.   
  8.     @Test  
  9.     public void TestA(){  
  10.         String lineStr = "明天雖然會下雨,但是我還是會看周傑倫的演唱會。";  
  11.         try{  
  12.             Segment segment = HanLP.newSegment();  
  13.             segment.enableCustomDictionary(true);  
  14.             /** 
  15.              * 自定義分詞+詞性 
  16.              */  
  17.             CustomDictionary.add("好熱","ng 0");  
  18.             List<Term> seg = segment.seg(lineStr);  
  19.             for (Term term : seg) {  
  20.                 System.out.println(term.toString());  
  21.             }  
  22.         }catch(Exception ex){  
  23.             System.out.println(ex.getClass()+","+ex.getMessage());  
  24.         }         
  25.     }  
  26. }  

 

 

 

執行結果如下:

 

[plain] view plain copy  
  1. 明天/t  
  2. 雖然/c  
  3. 會/v  
  4. 下雨/vi  
  5. ,/w  
  6. 但是/c  
  7. 我/rr  
  8. 還是/c  
  9. 會/v  
  10. 看/v  
  11. 周傑倫/nr  
  12. 的/ude1  
  13. 演唱會/n  
  14. 。/w  

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 首先,需要安裝C語言的編譯環境,因為Nginx是C語言編寫的。通常大多數Linux都會預設安裝GCC,如果沒有的話,可以如下安裝。 安裝make: 查看make是否安裝 安裝g++: 查看gcc安裝情況 PCRE庫: Nginx需要PCRE(Perl Compatible Regular Expre ...
  • 最近看了看SQL,剛好遇到這個問題。 INNER JOIN [外鍵表] ON [主鍵表] 內鏈接,用 GROUP BY 分組外鍵數據,COUNT(*)計算該外鍵數據總行數,最後用 ORDER BY 排序,DESC 關鍵字表示降序,想讓數據輸出升序省略DESC關鍵字即可 代碼如下: 查詢結果如下: 主 ...
  • mysql 8 windows 版本zip方式安裝步驟(下載地址:https://dev.mysql.com/downloads/mysql/)1,解壓ZIP文件到指定目錄下:如D:\mysql-8.0.11-winx642,新建my.ini配置文件並粘貼修改如下內容:(1)baseidr路徑 (2 ...
  • EXEC GenerateData '同一資料庫下的表名' ...
  • 運行環境:一拖一分散式集群+客戶端 mysql和hive安裝在客戶機上 問題:在客戶機終端啟動hive時出現如下問題: 目前還沒有找出是什麼原因! 解決辦法: 參照http://dblab.xmu.edu.cn/blog/install-hive/#more-996其中,hive-site.xml的 ...
  • 上一篇我們說了關於自排如果主鍵是0的問題,在這裡我搞清楚了原因,導致這種情況是因為在SQL中對自排設置了初始值: 從這裡可以看到這兩個變數一個是自增的初始值,一個是增量,這裡都是1,所以在設置自增的時候會把那個欄位原來存在的所有0變成從1開始的步長為1的等差數列。 但是這個數值是可以被修改的(不過在 ...
  • 用戶的許可權來自系統許可權和對象許可權 一、系統許可權 3個索引許可權 5個存儲過程許可權, 4個角色許可權 5個序列許可權 登錄資料庫許可權 表空間許可權 類型許可權 視圖許可權 表許可權 觸發器 備份資料庫 二、對象許可權 具體表的操作許可權: 具體存儲過程執行許可權 表空間 限制修改的列 收回許可權 三、其它方面 角色有哪些權 ...
  • 看了很多關於索引的博客,講的大同小異。但是始終沒有讓我明白關於索引的一些概念,如B Tree索引,Hash索引,唯一索引....或許有很多人和我一樣,沒搞清楚概念就開始研究B Tree,B+Tree等結構,導致在面試的時候答非所問! 索引是什麼? 索引是幫助MySQL高效獲取數據的數據結構。 索引能 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...