機器學習服務文本識別能力演進，大幅提升識別準確率

-Advertisement-

文本識別技術（OCR）可以識別收據、名片、文檔照片等含文字的圖片，將其中的文本信息提取出來，代替了人工信息錄入與檢測等操作，降低了輸入成本，快速、方便，提升產品的易用性。隨著技術的發展，OCR已經深入生活的諸多方面。交通場景下，主要用於車牌識別，便於停車場管理、智能交通、移動警務等；生活場景下，主 ...

文本識別技術（OCR）可以識別收據、名片、文檔照片等含文字的圖片，將其中的文本信息提取出來，代替了人工信息錄入與檢測等操作，降低了輸入成本，快速、方便，提升產品的易用性。

隨著技術的發展，OCR已經深入生活的諸多方面。交通場景下，主要用於車牌識別，便於停車場管理、智能交通、移動警務等；生活場景下，主要用於證照識別，便於提取身份證、銀行卡、護照、結婚證、戶口本、營業執照等證照圖像的文字信息，還可對街景路牌進行識別；票據場景下，主要用於發票憑證識別，便於銀行、稅務等大量票據表格錄入及長期存儲；其他場景下，可以利用OCR對書籍、報告、簡歷、合同等文件進行識別，將紙質文件電子化，便於保存和查看。

Demo

HMS Core機器學習服務OCR能力在2020年01月15日首次上線，為開發者們提供了豐富的API介面，HMS Core OCR能力支持任意角度的文本識別，對橫豎排、彎曲文本精準識別的同時，還能對文本段落進行準確劃分，對文本內容精確定位。為了保證一些卡證、票據的隱私性，HMS Core OCR能力還支持端側和雲側推理，端側適合相機或視頻畫面實時處理，圖片中稀疏文本識別，當調用端側介面時，可識別中文（簡體）、日文、韓文、拉丁語（包括英文、西班牙文、葡萄牙文、義大利文、德文、法文、俄文）10個語種；雲側對文字識別精度要求高，適合圖片中稀疏文本識別、文檔圖片密集文本識別，當調用雲側介面時，可以識別中文（簡體）、英文、西班牙文、葡萄牙文、義大利文、德文、法文、俄文、日文、韓文、波蘭文、芬蘭文、挪威文、瑞典文、丹麥文、土耳其文、泰文、阿拉伯文、印地文19個語種，核心語種的識別精度達到行業頂尖水平。

基於用戶需求和技術進步，HMS Core 機器學習服務OCR能力進行了升級優化：端側模型輕量化、準確率提升。

能力演進：

1、端側模型輕量化：文本識別端側10個語種能力增強（模型層面）

KPI不變，端側模型輕量化壓縮42%，運行所占記憶體從之前版本的19.4M降到11.1M左右。

模型的輕量化將模型體積縮小，並且可以輕量化展示，記憶體占比小，運行更加流暢。

2、準確率提升：雲側OCR能力演進（中文模型)

雲側OCR中文識別準確率從87.62%提升到92.95%，高於行業平均水準，競爭力大幅提高。

技術描述：

OCR是通過檢測紙上的字元，以檢測暗、亮的方式確定其形狀，而後用字元識別法將形狀翻譯成電腦文字的過程。即針對印刷體字元，採用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件，並經過識別軟體將圖像中的文字轉換成文本格式，供文字處理軟體進一步編輯加工的技術。

由於通用領域中存在大量彎曲文本的情況，演算法團隊通過重新設計文本檢測模型，在橫向文本的基礎上，增加了任意旋轉角度、彎曲文本的支持，使得在出行、廣告牌等場景下的準確率和易用性大大增加。

文本識別還支持純端側推理，在涉及各類卡證、票據等隱私信息的場景下，相比雲側服務更加安全、可靠。考慮到端側設備的算力、功耗等因素，演算法團隊通過巧妙的模型框架設計、量化、剪枝等技術，在保證識別精度的情況下，將識別模型壓縮到商用的標準，保證用戶的使用體驗。

競品對比：

OCR能力演進後，端側和雲側的識別準確率都在業界屬於領先地位。

雲側平均準確率高於競品約7%，時延僅為競品的55%。

端側平均準確率和模型體積均優於競品，一些小語種的準確率甚至達到95%。

優化更新：

基於現在市面上OCR能力大多只針對印刷體字元， HMS Core機器學習服務正在進行通用手寫體識別能力的開發（手寫體識別、手寫體+印刷體混合識別）。
加入更多語種，預計新增羅馬尼亞語、馬來語、菲律賓語等。
預計新增版面分析功能（PDF重排），機器學習服務支持多種內容識別處理功能，提升自身AI能力競爭力。

為了滿足眾多場景需要，HMS Core會不斷開發新功能幫助開發者構建多元化應用，後續新增功能以華為HMS Core機器學習服務聯盟官網為準。

瞭解更多詳情>>

訪問華為開發者聯盟官網
獲取開髮指導文檔
華為移動服務開源倉庫地址：GitHub、Gitee

關註我們，第一時間瞭解 HMS Core 最新技術資訊~

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

約束

創建表的時候可以給欄位添加相應的約束，約束的目的：保證表中數據的合法性，唯一性，有效性。非空約束（not null）：約束欄位不能為NULL 唯一約束（unique）：約束欄位不能重覆主鍵約束（primary key）：約束欄位既不能為NULL也不能重覆外鍵約束（foreign key）：阿裡 ...
「MySQL高級篇」MySQL索引原理，設計原則

①索引到底是什麼； ②索引底層的實現； ③聚簇索引是什麼？二級索引呢； ④最左首碼原則； ⑤如何設計索引，遵循的原則； ⑥索引相關語法； ...
教你如何解決T+0的問題

摘要：T+0查詢是指實時數據查詢，數據查詢統計時將涉及到最新產生的數據。本文分享自華為雲社區《大數據解決方案：解決T+0問題》，作者：小虛竹。 T+0問題 T+0查詢是指實時數據查詢，數據查詢統計時將涉及到最新產生的數據。在數據量不大時，T+0很容易完成，直接基於生產資料庫查詢就可以了。但是， ...
簡明的binlog event解析

GreatSQL社區原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。 GreatSQL是MySQL的國產分支版本，使用上與MySQL一致。用一個簡明、清晰的步驟來解析一下DML操作產生的binlog event。主要是 TABLE_MAP_EVENT 和 UPDATE_ROWS_EVENT ...
Windows 環境搭建 PostgreSQL 邏輯複製高可用架構資料庫服務

本文主要介紹 Windows 環境下搭建 PostgreSQL 的主從邏輯複製，關於 PostgreSQl 的相關運維文章，網路上大多都是 Linux 環境下的操作，鮮有在 Windows 環境下配置的教程，所以本文采用 Windows 環境作為演示系統來進行 PostgreSQL 高可用資料庫服務 ...
京東雲開發者| Redis數據結構(二)-List、Hash、Set及Sorted Set的結構實現

1 引言之前介紹了Redis的數據存儲及String類型的實現，接下來再來看下List、Hash、Set及Sorted Set的數據結構的實現。 2 List List類型通常被用作非同步消息隊列、文章列表查詢等；存儲有序可重覆數據或做為簡單的消息推送機制時，可以使用Redis的List類型。對於這 ...
公有雲、私有雲、混合雲都是什麼？有沒有通俗一點的答案？企業選哪一種雲比較好？

很多同學都覺得公有雲、私有雲、混合雲這些概念的認識比較混亂，開始我面對網上很多專業的解釋不明所以，直到我遇到這個說法：大白話解釋一下你娶了一個老婆，這叫傳統IT架構。你覺得一個老婆不夠，這叫傳統企業CIO的困境。你又娶了一個老婆，這叫雙活數據中心。你在外地又娶了一個小老婆，這叫兩地三中心容 ...
Flutter(九)Json序列化與反序列化(轉Model)

在日常開發中JSON的序列化與反序列化是一個常見的操作；而Dart語言不支持反射，運行時反射會影響Dart的tree shaking(搖樹優化)，tree shaking可以“抖掉”不需要使用的代碼，顯著優化 App 的體積，所以Flutter中沒有類似Gson這樣的Json庫，處理方法相比Kotl ...