隨著信息化的發展,很多具有重要價值的知識隱藏分佈在海量數據中,影響了人們獲取知識的效率,如何處理繁雜的非結構化文本數據成為難題。 近日,HMS Core機器學習服務6.5.0版本新增線上文本實體抽取能力,該能力可以檢測出文本中是否存在比如日期、姓名、專有名詞等實體信息,並將此類實體抽取出來,即自動處 ...
隨著信息化的發展,很多具有重要價值的知識隱藏分佈在海量數據中,影響了人們獲取知識的效率,如何處理繁雜的非結構化文本數據成為難題。
近日,HMS Core機器學習服務6.5.0版本新增線上文本實體抽取能力,該能力可以檢測出文本中是否存在比如日期、姓名、專有名詞等實體信息,並將此類實體抽取出來,即自動處理非結構化自然語言文本數據的能力。例如,影視行業的應用中常常會出現大量文字的影評、資訊等內容,使用線上文本實體抽取能力即可快速提取結構信息,幫助搭建知識圖譜,便於用戶清晰理解。
此外,文本實體抽取能力更多應用於問答系統、信息索引、知識圖譜構建等領域。
問答系統
問答系統是信息檢索系統的一種高級形式,它能用準確、簡潔的自然語言回答用戶提出的問題。在問答系統實現過程中,則需要用到文本實體抽取能力識別問題和知識庫中的實體信息,再通過多種演算法模型匹配出精準回答。
信息索引
使用線上文本實體抽取能力,可命名特定實體信息作為索引和超鏈接。比如用戶在評論時提到的專有名詞,可以生成超鏈接,便於其他用戶檢索瞭解相關內容。
知識圖譜構建
知識圖譜是由實體、關係和屬性組成的一種數據結構,即具有有向圖結構的一個知識庫,文本實體抽取能力作為知識圖譜構建過程中的底層能力,有著極其重要的作用。比如構建音樂知識圖譜,首先需要大量的文本數據中提取出歌手、歌曲、作詞、影視等相關信息,然後再進行知識圖譜的搭建。
目前,華為機器學習服務線上文本實體抽取能力共支持人名、金錢、影視名、網頁鏈接在內的16個實體類別,可根據實際語義場景應用於不同類別的App中。
集成步驟
- 開發準備
詳細準備步驟可參考華為開發者聯盟官網。
- 集成和配置apigateway鑒權
基於apigateway的鑒權機制:
"paths": {
"/entityExtract": { "post": { "operationId": "entityExtract",
"parameters": [{"in": "body", "name": "req", "required": true,
"schema": { "$ref": "#/definitions/NerEnterReq" } }, {
"name": "X-Request-ID", "in": "header", "required": true,
"type": "string"
}, {"name": "X-Package-Name", "in": "header", "required": true,
"type": "string" }, ……],
"responses": {"200": { "description": "response of 200",
"schema": { "$ref": "#/definitions/ResponseEntityNerBodyVo"}}}}}
- 創建線上文本實體構造器
// 使用自定義的參數配置創建語種檢測器。
MLRemoteNerSetting setting = new MLRemoteNerSetting.Factory()
.setSourceLangCode("zh")
.create();
MLRemoteNer ner = MLNerFactory.getInstance().getRemoteNer(setting);
進行文本實體抽取。
- 線上獲取文本實體抽取
非同步方法示例代碼:
ner.asyncEntityExtract(input).addOnSuccessListener(new OnSuccessListener<RemoteNerResultItem[]>() {
@Override
public void onSuccess(RemoteNerResultItem[] remoteNerResults) {
// 成功的處理邏輯。
if(remoteNerResults != null){
// 有識別結果
}else {
// 識別結果為空
}
}
}).addOnFailureListener(new OnFailureListener() {
@Override
public void onFailure(Exception e) {
// 識別失敗,獲取相關異常信息。
try {
MLException mlException = (MLException) e;
// 獲取錯誤碼,開發者可以對錯誤碼進行處理,根據錯誤碼進行差異化的頁面提示。
int errorCode = mlException.getErrCode();
// 獲取報錯信息,開發者可以結合錯誤碼,快速定位問題。
String errorMessage = mlException.getMessage();
} catch (Exception error) {
// 轉換錯誤處理。
}
}
});
同步方法示例代碼:
try {
RemoteNerResultItem[] remoteNerResults = ner.syncEntityExtract(input);
// 識別成功邏輯
if(remoteNerResults != null){
// 有識別結果
}else {
// 識別結果為空
}
} catch (MLException mlException) {
// 失敗的處理邏輯。
// 獲取錯誤碼,開發者可以對錯誤碼進行處理,根據錯誤碼進行差異化的頁面提示。
int errorCode = mlException.getErrCode();
// 獲取報錯信息,開發者可以結合錯誤碼,快速定位問題。
String errorMessage = mlException.getMessage();
}
- 完成後,釋放資源
if (ner != null) {
ner.stop();
}
瞭解更多詳情>>
訪問華為開發者聯盟官網
獲取開髮指導文檔
華為移動服務開源倉庫地址:GitHub、Gitee
關註我們,第一時間瞭解 HMS Core 最新技術資訊~