dkhadoop的自然語言處理技術介紹

来源:https://www.cnblogs.com/adnb34g/archive/2018/04/12/8807839.html
-Advertisement-
Play Games

這裡要分享的HanLP是我在學習使用大快DKhadoop大數據一體化平臺時使用到的自然語言處理技術,使用這個組建可以很高效的進行自然語言的處理工作,比如進行文章摘要,語義判別以及提高內容檢索的精確度和有效性等。 本想找個通俗的案例來介紹一下HanLP,一時間也沒想到什麼好的案例,索性就從HanLp... ...


這段時間一直在接觸學習hadoop方面的知識,所以說對自然語言處理技術也是做了一些瞭解。網路上關於自然語言處理技術的分享文章很多,今天就給大家分享一下HanLP方面的內容。

自然語言處理技術其實是所有與自然語言的電腦處理相關聯的技術的統稱,自然語言處理技術應用的目的是為了能夠讓電腦理解和接收我們用自然語言輸入的指令,實現從將我們人類的語言翻譯成電腦能夠理解的並且不會產生歧義的一種語言。接合目前的大數據以及人工智慧,自然語言處理技術的快速發展能夠很好的助力人工智慧的發展。

(大快DKhadoop大數據一體化開發框架)

這裡要分享的HanLP是我在學習使用大快DKhadoop大數據一體化平臺時使用到的自然語言處理技術,使用這個組建可以很高效的進行自然語言的處理工作,比如進行文章摘要,語義判別以及提高內容檢索的精確度和有效性等。

本想找個通俗的案例來介紹一下HanLP,一時間也沒想到什麼好的案例,索性就從HanLp數據結構HE 分詞簡單介紹下吧。

首先我們來看瞭解下HanLP的數據結構:

二分tire樹:Tire樹是一種首碼壓縮結構,可以壓縮存大量字元串,並提供速度高於Map的get操作。HanLP中的trie樹採用有序數組儲存子節點,通過二分搜索演算法檢索,可以提供比TreeMap更快的查詢速度

不同於父節點儲存子節點引用的普通trie樹,雙數組trie樹將節點的從屬關係轉化為字元內碼的加法與校驗操作

對於一個接收字元c從狀態s移動到t的轉移,需滿足條件是:

base[s] + c = t

check[t] = s比如:base[一號] + = 一號店

check[一號店] = 一號

相較於trie樹的首碼壓縮(success表),AC自動機還實現了尾碼壓縮(output表)

在匹配失敗時,AC自動機會跳轉到最可能成功的狀態(fail指針)

關於HanLP分詞

1、詞典分詞

基於雙數組trie樹或ACDAT的詞典最長分詞(即從詞典中找出所有可能的詞,順序選擇最長的詞語)

 

輸出:[HanLP/名詞, 是不是/null, 特別/副詞, 方便/形容詞, /null]

2NGram分詞

 

統計語料庫中的BiGram,根據轉移概率,選出最可能的句子,達到排除歧義的目的

3HMM2分詞

 

這是一種由字構詞的生成式模型,由二階隱馬模型提供序列標註 

被稱為TnT Tagger,特點是利用低階事件平滑高階事件,彌補高階模型的數據稀疏問題

4CRF分詞

 

這是一種由字構詞的生成式模型,由CRF提供序列標註

相較於HMMCRF的優點是能夠利用更多特征、對OOV分詞效果好,缺點是占記憶體大、解碼慢。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Oracle 安裝時官方建議關閉Linux的透明大頁,防止記憶體延遲分配導致的性能問題 https://docs.oracle.com/cd/E11882_01/install.112/e47689/pre_install.htm#LADBI1519 MOS:ID 1557478.1 Because ...
  • $(filter pattern…,text) Returns all whitespace separated words in text that do match any of the pattern words, removing any words that do not match. T ...
  • 背景 本學期在北京大學選修了《資料庫概論》的實驗班課程,由於 SQL 語法並不是特別理論的內容,因此課上暫時也沒有特別展開。出於探索資料庫領域的興趣,使用國內普遍使用的資料庫軟體 MySQL 實踐《資料庫系統概念》中若幹 SQL 語句主題;出於方便描述考慮,主要使用命令行界面操作。 MySQL 的安 ...
  • 最近有次在修改某段程式時,發現一段程式演算法看起來簡單。 但背後因為多次查詢數據庫,導致效能問題。 這段程式主要是利用 EPPLUS 讀取 Excel 資料,檢查資料是否已存在數據庫中,若有就將已存在的序號回傳 優化前的案例原碼如下 從上述可以看到,對於每一行Row的資料,都進一次庫去做查詢比對 那在 ...
  • 今天遇到一起關於分散式事務錯誤的案例,如下所示,執行SQL腳本時報錯, 錯誤信息具體如下所示: [OLE/DB provider returned message: 新事務不能登記到指定的事務處理器中。 ] OLE DB error trace [OLE/DB Provider 'SQLOLEDB'... ...
  • 面試碰到一個MySQl的有趣的題目,如何從student表中刪除重覆名字的行,並保留最小id的記錄? 很遺憾當時沒有做出來,回家搜索了一番,發現利用子查詢的可以很快解決。 1、刪除表中多餘的重覆記錄,重覆記錄是username判斷,只留有id最小的記錄 (上面這條語句在mysql中執行會報錯: 執行 ...
  • 預設情況下,mysql.db表中包含的行表示任意用戶可以訪問test資料庫和test_開頭的資料庫。這些行的User欄位的值為空,表示匹配任意用戶。這意味著這些資料庫(test資料庫和test_開頭的資料庫)預設可以被任意用戶使用(即使沒有許可權的用戶)。 mysql.db 預設設置: 初始化的mys ...
  • 最近在部署Zabbix時需要用腳本取得一些MySQL的返回參數,需要是numberic格式的,但是調用腳本時總是輸出這一句: grep -v也是處理不掉的,很是煩人,在網上翻了翻解決掉,記錄於此: Mysql命令有個如下參數: 因此編輯一個password.txt的文件: 腳本中的MySQL連接使用 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...