Tesseract:簡單的Java光學字元識別

来源:https://www.cnblogs.com/liululee/archive/2019/08/28/11426790.html
-Advertisement-
Play Games

1.1 介紹 開發具有一定價值的符號是人類特有的特征。對於人們來說識別這些符號和理解圖片上的文字是非常正常的事情。與電腦那樣去抓取文字不同,我們完全是基於視覺的本能去閱讀它們。 另一方面,電腦的工作需要具體的和有組織的內容。它們需要數字化的表示,而不是圖形化的。 有時候,這是不可能的。有時,我們 ...


1.1 介紹

開發具有一定價值的符號是人類特有的特征。對於人們來說識別這些符號和理解圖片上的文字是非常正常的事情。與電腦那樣去抓取文字不同,我們完全是基於視覺的本能去閱讀它們。

另一方面,電腦的工作需要具體的和有組織的內容。它們需要數字化的表示,而不是圖形化的。

有時候,這是不可能的。有時,我們希望自動化的完成用雙手從圖像重寫文本的任務。

針對這些任務,光學字元識別(OCR)被設計成一種允許電腦以文本形式“閱讀”圖形化內容的方法,和人類工作的方式相似。雖然這些系統相對準確,但仍然可能有相當大的偏差。即便如此,修複系統的錯誤結果也遠比手工從頭開始要更加容易和快速。

就像所有的系統一樣,本質上是相似的,光學字元識別軟體在準備好的數據集上進行訓練,這些數據集提供了足夠多的數據用來幫助學習字元間的差異。如果我們想讓結果更加準確,那麼這些軟體如何學習也是非常重要的話題,不過這將是另外一篇文章的內容了。

與其重新造輪或者想出一個非常複雜(但有用)的解決方案,不如我們先坐下來看看已有的解決方案。

1.2 Tesseract

科技巨頭 Google 一直在開發一個 OCR 引擎 Tesseract ,它從最初誕生到現在已有數十年的歷史。它為許多語言提供了API,不過我們將專註於 Tesseract 的 Java API 。

很容易使用 Tesseract 來實現一個簡單的功能。它主要用於讀取電腦在黑白圖片上生成的文字,並且結果的準確度較好。但這不是針對真實世界的文本。

對於現實世界中,我們最好使用像谷歌 Vision 這樣的更高級的光學字元識別軟體,這將在另一篇文章中討論。

1.2.1 Maven依賴

我們只需要簡單的添加一個依賴,就可以將引擎引入到我們的項目:

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>3.2.1</version>
</dependency>

1.2.2 光學字元識別

使用 Tesseract 毫不費力:

Tesseract tesseract = new Tesseract();
tesseract.setDatapath("E://DataScience//tessdata");
System.out.println(tesseract.doOCR(new File("...")));

我們先實例化一個 Tesseract 實例,然後為已訓練好的 LSTM (長短期記憶網路)模型設置數據路徑。

數據可以從官方GitHub帳號處下載。

然後我們調用 doOCR() 方法,該方法接受一個文件參數並且返回一個字元串——提取的內容。

讓我們給它提供一張有著大而清晰的黑色字元的白色背景圖片:

提供這樣一張圖片會獲得完美的結果:

Optical Character Recognition in Java is made easy with the help of Tesseract'

不過這張圖片掃描起來過於簡單了。它已經被歸一化,而且有高解析度和一致的字體。

讓我們來試試在紙上手寫一些字元並將該圖片提供給應用程式,這將會發生些什麼呢:

我們可以立即看到結果的改變:

A411“, written texz: is different {mm compatar generated but

有一些單詞十分準確,並且你可以很輕鬆的辨認出 “written text is different from computer generated” ,但是第一個和最後一個單詞差得有點多。

現在,為了讓程式使用起來更簡單,我們把它轉換成一個十分簡單的 Spring Boot 應用程式,用更加舒適的圖形化界面來展示結果。

1.3 實現

1.3.1 Spring Boot應用程式

首先,從使用Spring Initializr創建我們的項目開始。它包含spring-boot-starter-webspring-boot-starter-thymeleaf依賴。然後我們手動導入Tesseract:

1.3.2 控制器

該應用程式只需要一個控制器,它將為我們提供兩個頁面的展示、處理圖片上傳和光學字元識別功能:

@Controller
public class FileUploadController {

    @RequestMapping("/")
    public String index() {
        return "upload";
    }

    @RequestMapping(value = "/upload", method = RequestMethod.POST)
    public RedirectView singleFileUpload(@RequestParam("file") MultipartFile file,
                                   RedirectAttributes redirectAttributes, Model model) throws IOException, TesseractException {

        byte[] bytes = file.getBytes();
        Path path = Paths.get("E://simpleocr//src//main//resources//static//" + file.getOriginalFilename());
        Files.write(path, bytes);

        File convFile = convert(file);
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath("E://DataScience//tessdata");
        String text = tesseract.doOCR(convFile);
        redirectAttributes.addFlashAttribute("file", file);
        redirectAttributes.addFlashAttribute("text", text);
        return new RedirectView("result");
    }

    @RequestMapping("/result")
    public String result() {
        return "result";
    }

    public static File convert(MultipartFile file) throws IOException {
        File convFile = new File(file.getOriginalFilename());
        convFile.createNewFile();
        FileOutputStream fos = new FileOutputStream(convFile);
        fos.write(file.getBytes());
        fos.close();
        return convFile;
    }
}

Tesseract 可以和Java的 File 類一起工作,但是不支持表單上傳的 MultipartFile 類。為了便於處理,我們添加了一個簡單的 convert() 方法,它將 MultipartFile 對象轉換成一個普通的 File 對象。

一旦我們利用 Tesseract 提取出了文本,我們只需將該文本和掃描的圖像一起添加到模型當中,然後附加到重定向的展示頁面 - result

1.3.3 展示頁面

現在,讓我們定義一個包含簡單文件上傳表單的展示頁面:

<html>
<body>
<h1>Upload a file for OCR:</h1>

<form method="POST" action="/upload" enctype="multipart/form-data">
    <input type="file" name="file" /><br/><br/>
    <input type="submit" value="Submit" />
</form>

</body>
</html>

以及一個結果頁面:

<html xmlns:th="http://www.thymeleaf.org">
<body>

<h1>Extracted Content:</h1>
<h2>><span th:text="${text}"></span></h2>

<p>From the image:</p>
<img th:src="'/' + ${file.getOriginalFilename()}"/>
</body>
</html>

運行這個應用程式將會有一個簡單的交互界面迎接我們:

添加一個圖片並提交它,屏幕上的結果將會包含提取的文本和上傳的圖片:

成功了!

1.4 結論

利用谷歌的 Tesseract 引擎,我們搭建了一個十分簡單的應用,它接受從表單提交來的圖片,從中提取文本內容,最後將結果和圖片一起返回給我們。

由於我們只使用了 Tesseract 有限的功能,所以這不是一個特別有用的應用程式。而且該應用程式對於演示目的之外的任何其他用途都過於簡單,但是它可以作為一個有趣的工具來實現和測試。

當你想把內容數字化時,光學字元識別可以很快上手,特別是針對文檔。他們很容易被掃描,並且提取的內容準確度也較好。當然,為了避免潛在的錯誤,對結果文檔進行校對總是明智的。


8月福利準時來襲,關註公眾號

後臺回覆:003即可領取7月翻譯集錦哦~

往期福利回覆:001,002即可領取!

img


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 現在幾乎大部分的`App`都支持使用多個第三方賬號進行登錄,如:微信、QQ、微博等,我們把此稱為多賬號統一登陸。而這些賬號的表設計,流程設計至關重要,不然後續擴展性賊差。本文不提供任何代碼實操,但是梳理一下博主根據我司賬號模塊的設計,提供思路,僅供參考。 ...
  • 遞歸函數包含了對自身的調用。 階乘計算就是一個遞歸調用的經典例子。 ...
  • 1 匯流排 內部匯流排:實現CPU內部各器件(運算器、控制器、寄存器等)之間的聯繫。 匯流排(外部匯流排):實現CPU和主板上其他器件的聯繫。 地址匯流排 CPU通過地址匯流排指定存儲器單元。 一個CPU有N根地址線,則這個CPU的地址匯流排的寬度為N,這個CPU最多可以尋找2的N次方個記憶體單元(位元組)。 控制總 ...
  • 根據我的理解和搜集的資料,儘可能清晰完整的回答(逐步完善,持續更新) 1、String類為什麼是final的 首先分析String的源碼: 類被final關鍵字限定,說明它不可以被繼承,沒有子類。即持有一個String對象的引用,它必然是String類,而不會是其他的類。 value是用來存儲值的, ...
  • ★、本實例使用百度智能雲-人工智慧-人臉識別API實現。 ★、樓下安裝了刷臉進門。閑暇時無聊寫了個Demo 主界面顯示如下圖: 本實例,包括了所有人臉識別API的調用。 1、 創建樓號,對應API中創建用戶組,詳見: https://ai.baidu.com/docs#/Face-Set-V3/58 ...
  • python中有 try——except 的方法捕獲異常,可以獲取到異常的種類以及自定義異常, 但是有時候對於debug測試來說,信息不全,比如說 觸發異常的具體位置在哪: import traceback try: num= int('abc')except Exception: tracebac ...
  • Spring Security 解析(三) —— 個性化認證 以及 RememberMe 實現   在學習Spring Cloud 時,遇到了授權服務oauth 相關內容時,總是一知半解,因此決定先把Spring Security 、Spring Security Oauth2 ...
  • 前面介紹了JavaFX的常見控制項用法,雖然JavaFX控制項比起AWT與Swing要好用些,但是一樣通過代碼編寫控制項界面,並沒有提高什麼開發效率。要想瀏覽界面的展示效果,都必須運行測試程式才能觀看,即使只是微調控制項的大小,也得重新運行程式查看效果,顯然既費時又費力。為此JavaFX提供了另一種給界面排 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...