一、本文內容簡介 二、具體內容 1. 中文分詞的基本概念 2.關於NLPIR(北理工張華平版中文分詞系統)的基本情況 3.具體SDK模塊(C++)的組裝方式 ①準備內容: ②開始組裝 三.註意事項 1. 中文分詞的基本概念 2.關於NLPIR(北理工張華平版中文分詞系統)的基本情況 3.具體SDK模 ...
- 一、本文內容簡介
- 二、具體內容
- 1. 中文分詞的基本概念
- 2.關於NLPIR(北理工張華平版中文分詞系統)的基本情況
- 3.具體SDK模塊(C++)的組裝方式
- ①準備內容:
- ②開始組裝
- 三.註意事項
一、本文內容簡介
- 關於中文分詞的基本概念
- 關於NLPIR(北理工張華平版中文分詞系統)的基本情況
- 具體SDK模塊(C++版)的組裝方法
二、具體內容
1. 中文分詞的基本概念
中文分詞是自然語言處理的一個分支,自然語言即人們在日常生活中使用的語言,包含書面語,口語,例如報紙上的一篇通訊,博客裡面的一篇文章。之所以稱其為自然語言,是因為它區別於電腦語言,電腦語言的文法與組織方式較為規範,自然語言則貼近人們生活。自然語言處理作為一項技術,在搜索引擎,機器語義理解和對話系統中有著基礎和決定性的作用和價值,這方面比較知名的例如微軟的cortana(微軟小娜),以及國內各個互聯網公司發佈的智能音箱等。
2.關於NLPIR(北理工張華平版中文分詞系統)的基本情況
北理工張華平版中文分詞系統(NLPIR),又名中科院分詞系統,是國內高校院所中開源力度相當大的一家(下文將簡稱北理工分詞系統),另一家是哈工大中文分詞系統(LTP)。北理工分詞系統功能豐富,目前已經包含了以下功能:
- 全文檢索
- 新詞發現
- 分詞標註
- 統計分析與術語翻譯大數據聚類與熱點分析
- 大數據文本過濾
- 自動摘要
- 關鍵詞提取
- 文檔去重
- HTML正文提取
- 編碼自動識別與轉換
NLPIR提供的組件包中含有13種SDK組件包:
- Classify規則組件
- Cluster聚類組件
- DeepClassifier訓練分類組件
- DocExtractor實體抽取組件
- HTMLPaser網站正文提取組件
- NLPIR-ICTCLAS分片語件
- JZsearch精準搜索組件
- JZSearch精準搜索客戶端組件
- KeyExtract關鍵詞提取組件
- RedupRemover文檔去重組件
- Sentiment情感組件
- SentimentAnalysis情感分析組件
- Summary摘要組件
每個組件包內容介紹
- doc:使用說明文檔和API文檔
- include:頭文件
- lib:linux32,linux64,win32,win64等不同版本的庫
- projects:開發工程包
- sample:C#,C++,java等不同語言的案例
- Data:資料庫
3.具體SDK模塊(C++)的組裝方式
註:以下組裝方式以實體抽取模塊(DocExtractor)為例,平臺為VS2012
①準備內容:
前往Github下載源碼,源碼的數據量在740MB左右,因為DNS被禁的原因,一般網路的下載速度比較慢,幾十kb的樣子。博主的解決方法是使用國內的代碼托管平臺,例如博主使用的是碼雲( https://gitee.com),可以與Github關聯同一個賬戶,將Github中的項目fork到碼雲中再進行下載,速度可以上每秒0.5MB。解壓之後,如下圖所示
整個github項目解壓後的內瓤
實體抽取組件的路徑為:NLPIR\NLPIR SDK\DocExtractor,其中包含的文件如下圖
SDK中所含內容
②開始組裝
1.點擊新建—>項目—>其他語言—>Visual C++ —>空項目,名稱為:DocExtractorCppTest,解決方案名稱為:NLPIR-DE;如下圖所示
新建空項目
2.將路徑(NLPIR\NLPIR SDK\DocExtractor\projects\DocExtractor_c++)中的main.cpp文件拷貝到項目目錄下(我的路徑為NLPIR-DE\DocExtractorCppTest\)。
3.把路徑(NLPIR\NLPIR SDK\DocExtractor\lib\win32)下的DocExtractor.dll以及DocExtractor.lib兩個文件拷貝到項目目錄下(我的路徑為NLPIR-DE\DocExtractorCppTest\)。
4.將(NLPIR\License\license for a month\DocExtractor文檔提取授權)下麵的DocExtractor.user拷貝到路徑NLPIR\NLPIR SDK\DocExtractor\Data下
5.將DATA文件夾拷貝到新建的解決方案目錄下
6.將路徑NLPIR\NLPIR SDK\DocExtractor\include下的文件DocExtractor.h拷貝到項目目錄下,我的路徑為NLPIR-DE\DocExtractorCppTest
7.經過以上操作,新建項目文件如下圖
解決方案目錄下
項目目錄下
9.在VS中右鍵單擊項目—>添加—>現有項,把項目目錄下的四個文件 DocExtractor.dll,DocExtractor.h,DocExtractor.lib,main.cpp添加進去,點擊運行,而後報錯,如下圖所示,正常現象,這是因為部分代碼沒有修改的緣故。
10.將如圖所示的紅色框中的代碼去掉就可以,使dll文件及lib文件正確讀取。
去代碼
11.去掉之後再點擊運行就可以正常運行了,效果如下
三.註意事項
- 之所以去掉紅框中標註的代碼是要把dll與lib的文件路徑修改正確
- license授權文件每月更新一次,因此DATA文件夾下的授權文件DocExtractor.user要保持最新版本 2019-04-06 16:51:44