Tesseract：簡單的Java光學字元識別

1.1 介紹開發具有一定價值的符號是人類特有的特征。對於人們來說識別這些符號和理解圖片上的文字是非常正常的事情。與電腦那樣去抓取文字不同，我們完全是基於視覺的本能去閱讀它們。另一方面，電腦的工作需要具體的和有組織的內容。它們需要數字化的表示，而不是圖形化的。有時候，這是不可能的。有時，我們 ...

1.1 介紹

開發具有一定價值的符號是人類特有的特征。對於人們來說識別這些符號和理解圖片上的文字是非常正常的事情。與電腦那樣去抓取文字不同，我們完全是基於視覺的本能去閱讀它們。

另一方面，電腦的工作需要具體的和有組織的內容。它們需要數字化的表示，而不是圖形化的。

有時候，這是不可能的。有時，我們希望自動化的完成用雙手從圖像重寫文本的任務。

針對這些任務，光學字元識別（OCR）被設計成一種允許電腦以文本形式“閱讀”圖形化內容的方法，和人類工作的方式相似。雖然這些系統相對準確，但仍然可能有相當大的偏差。即便如此，修複系統的錯誤結果也遠比手工從頭開始要更加容易和快速。

就像所有的系統一樣，本質上是相似的，光學字元識別軟體在準備好的數據集上進行訓練，這些數據集提供了足夠多的數據用來幫助學習字元間的差異。如果我們想讓結果更加準確，那麼這些軟體如何學習也是非常重要的話題，不過這將是另外一篇文章的內容了。

與其重新造輪或者想出一個非常複雜（但有用）的解決方案，不如我們先坐下來看看已有的解決方案。

1.2 Tesseract

科技巨頭 Google 一直在開發一個 OCR 引擎 Tesseract ，它從最初誕生到現在已有數十年的歷史。它為許多語言提供了API，不過我們將專註於 Tesseract 的 Java API 。

很容易使用 Tesseract 來實現一個簡單的功能。它主要用於讀取電腦在黑白圖片上生成的文字，並且結果的準確度較好。但這不是針對真實世界的文本。

對於現實世界中，我們最好使用像谷歌 Vision 這樣的更高級的光學字元識別軟體，這將在另一篇文章中討論。

1.2.1 Maven依賴

我們只需要簡單的添加一個依賴，就可以將引擎引入到我們的項目：

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>3.2.1</version>
</dependency>

1.2.2 光學字元識別

使用 Tesseract 毫不費力：

Tesseract tesseract = new Tesseract();
tesseract.setDatapath("E://DataScience//tessdata");
System.out.println(tesseract.doOCR(new File("...")));

我們先實例化一個 Tesseract 實例，然後為已訓練好的 LSTM （長短期記憶網路）模型設置數據路徑。

數據可以從官方GitHub帳號處下載。

然後我們調用 doOCR() 方法，該方法接受一個文件參數並且返回一個字元串——提取的內容。

讓我們給它提供一張有著大而清晰的黑色字元的白色背景圖片：

提供這樣一張圖片會獲得完美的結果：

Optical Character Recognition in Java is made easy with the help of Tesseract'

不過這張圖片掃描起來過於簡單了。它已經被歸一化，而且有高解析度和一致的字體。

讓我們來試試在紙上手寫一些字元並將該圖片提供給應用程式，這將會發生些什麼呢：

我們可以立即看到結果的改變：

A411“, written texz: is different {mm compatar generated but

有一些單詞十分準確，並且你可以很輕鬆的辨認出 “written text is different from computer generated” ，但是第一個和最後一個單詞差得有點多。

現在，為了讓程式使用起來更簡單，我們把它轉換成一個十分簡單的 Spring Boot 應用程式，用更加舒適的圖形化界面來展示結果。

1.3 實現

1.3.1 Spring Boot應用程式

首先，從使用Spring Initializr創建我們的項目開始。它包含spring-boot-starter-web和spring-boot-starter-thymeleaf依賴。然後我們手動導入Tesseract：

1.3.2 控制器

該應用程式只需要一個控制器，它將為我們提供兩個頁面的展示、處理圖片上傳和光學字元識別功能：

@Controller
public class FileUploadController {

    @RequestMapping("/")
    public String index() {
        return "upload";
    }

    @RequestMapping(value = "/upload", method = RequestMethod.POST)
    public RedirectView singleFileUpload(@RequestParam("file") MultipartFile file,
                                   RedirectAttributes redirectAttributes, Model model) throws IOException, TesseractException {

        byte[] bytes = file.getBytes();
        Path path = Paths.get("E://simpleocr//src//main//resources//static//" + file.getOriginalFilename());
        Files.write(path, bytes);

        File convFile = convert(file);
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath("E://DataScience//tessdata");
        String text = tesseract.doOCR(convFile);
        redirectAttributes.addFlashAttribute("file", file);
        redirectAttributes.addFlashAttribute("text", text);
        return new RedirectView("result");
    }

    @RequestMapping("/result")
    public String result() {
        return "result";
    }

    public static File convert(MultipartFile file) throws IOException {
        File convFile = new File(file.getOriginalFilename());
        convFile.createNewFile();
        FileOutputStream fos = new FileOutputStream(convFile);
        fos.write(file.getBytes());
        fos.close();
        return convFile;
    }
}

Tesseract 可以和Java的 File 類一起工作，但是不支持表單上傳的 MultipartFile 類。為了便於處理，我們添加了一個簡單的 convert() 方法，它將 MultipartFile 對象轉換成一個普通的 File 對象。

一旦我們利用 Tesseract 提取出了文本，我們只需將該文本和掃描的圖像一起添加到模型當中，然後附加到重定向的展示頁面 - result。

1.3.3 展示頁面

現在，讓我們定義一個包含簡單文件上傳表單的展示頁面：

<html>
<body>
<h1>Upload a file for OCR:</h1>

<form method="POST" action="/upload" enctype="multipart/form-data">
    <input type="file" name="file" /><br/><br/>
    <input type="submit" value="Submit" />
</form>

</body>
</html>

以及一個結果頁面：

<html xmlns:th="http://www.thymeleaf.org">
<body>

<h1>Extracted Content:</h1>
<h2>><span th:text="${text}"></span></h2>

<p>From the image:</p>
<img th:src="'/' + ${file.getOriginalFilename()}"/>
</body>
</html>

運行這個應用程式將會有一個簡單的交互界面迎接我們：

添加一個圖片並提交它，屏幕上的結果將會包含提取的文本和上傳的圖片：

成功了！

1.4 結論

利用谷歌的 Tesseract 引擎，我們搭建了一個十分簡單的應用，它接受從表單提交來的圖片，從中提取文本內容，最後將結果和圖片一起返回給我們。

由於我們只使用了 Tesseract 有限的功能，所以這不是一個特別有用的應用程式。而且該應用程式對於演示目的之外的任何其他用途都過於簡單，但是它可以作為一個有趣的工具來實現和測試。

當你想把內容數字化時，光學字元識別可以很快上手，特別是針對文檔。他們很容易被掃描，並且提取的內容準確度也較好。當然，為了避免潛在的錯誤，對結果文檔進行校對總是明智的。

8月福利準時來襲，關註公眾號

後臺回覆：003即可領取7月翻譯集錦哦~

往期福利回覆：001，002即可領取！