驗證碼識別 Tesseract的簡單使用和總結

-Advertisement-

Tesseract是什麼 OCR即光學字元識別，是指通過電子設備掃描紙上的列印的字元，然後翻譯成電腦文字的過程。也就是說通過輸入圖片，經過識別引擎，去識別圖片上的文字。Tesseract是一種適用於各種操作系統的光學字元識別引擎，最早是hp公司的軟體，2005年開源，2006年後由google一直 ...

Tesseract是什麼

OCR即光學字元識別，是指通過電子設備掃描紙上的列印的字元，然後翻譯成電腦文字的過程。也就是說通過輸入圖片，經過識別引擎，去識別圖片上的文字。Tesseract是一種適用於各種操作系統的光學字元識別引擎，最早是hp公司的軟體，2005年開源，2006年後由google一直贊助Tesseract開發和維護。2006年，Tesseract被認為是當時最準確的開源OCR引擎之一。

驗證碼識別類型

這裡討論一般的驗證碼識別，即英文、數字、或者英文和數字的混合的驗證碼，不包括滑動和文字點擊這些類型。

Tesseract的安裝

Tesseract的github地址:https://github.com/tesseract-ocr/tesseract
Tesseract的安裝github上有說明，Tesseract現在有3.05的版本，也有4.0beta版，我自己使用之後感覺2者差異不大，替換之後識別率也沒有明顯提升，所以只要使用其中一個就好。Tesseract支持windows和linux，windows下裝完之後有個Tesseract-ocr的目錄，目錄下有個tesseract.exe的程式，可以通過調用這個exe的命令行去進行ocr的識別。

Tesseract的使用

簡單的命令行使用如下：

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

參數說明：

imagename　　圖片文件
outputbase　　輸出文件，也可以選擇命令行輸出stdout

可選參數

-l lang　　識別庫，預設是eng，也可以是自己訓練出來的識別庫
-psm pagesegmode 識別模式

pagesegmode 具體含義見下圖

0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.

Tesseract訓練

可以通過jTessBoxEditor去訓練Tesseract，而且訓練樣本越多，識別準確度越好，實際使用中我訓練了500張圖片，對識別率的提升還是有的，但是還是沒能達到自己想要的預期識別率，估計是樣本還不夠多吧。另外對樣本一個個修正也是個繁瑣的事情，尤其是驗證碼，一般都各種變形以防止程式輕易識別，不過總體來說只要樣本夠多，想要達到預期的識別率還是可以的。關於jTessBoxEditor訓練的詳細步驟，有興趣的可以自己去搜索Tesseract相關資料瞭解。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

javaWeb項目中的路徑格式請求url地址客戶端路徑服務端路徑 url-pattern 路徑獲取資源路徑地址 url

javaweb項目中有很多場景的路徑客戶端的POST/GET請求,伺服器的請求轉發,資源獲取需要設置路徑等這些路徑表達的含義都有不同,所以想要更好的書寫規範有用的路徑代碼需要對路徑有一個清晰地認知 javaweb項目中有很多場景的路徑客戶端的POST/GET請求,伺服器的請求轉發,資源獲取需要設置 ...
Java的記憶體模型

Java的記憶體模型概念 Java記憶體模型的主要目標是定義程式中各個變數的訪問規則，即在虛擬機中將變數存儲到記憶體中取出變數（這的變數包括實例欄位。靜態欄位和構成數組對象的元素）這樣的底層細節。為了獲得較好的執行效能。Java記憶體模型沒有限制執行引擎使用處理器的特定寄存器或緩存來和主記憶體進行交互，也 ...
一、數值類型與序列類型

一、數值類型的分類 1、int型: 整數型,所有整數都屬於 2、float型: 浮點型,帶小數點都屬 3、bool型: 布爾類型, 布爾類型只有True和False >>> trueTraceback (most recent call last): File "<stdin>", line 1, ...
工具併發類安全

當一個類中的方法被多個線程調用時，方法中可能有對公共的資源進行操作，如果不讓它一個個有順序的執行那麼公共資源的數據可能產生錯亂，解決方法單例模式說明：實現單例模式，也就是這個類一次只能實例化一次，當使用完後才能進行下一次實例化，這樣才能保證這個類里的方法每次只執行一次最好的單例模式：用枚 ...
【leetcode 簡單】第五題最長公共首碼

編寫一個函數來查找字元串數組中的最長公共首碼。如果不存在公共首碼，返回空字元串 ""。示例 1: 輸入: ["flower","flow","flight"] 輸出: "fl" 示例 2: 輸入: ["dog","racecar","car"] 輸出: "" 解釋: 輸入不存在公共首碼。說明: ...
第一階段：Java內功秘籍-線性表

前言為什麼要學習數據結構與演算法，如果你學會了做安卓，javaweb，前端等，都是你的武功秘籍，但是如果你的內功不夠好，再厲害的功夫也是白費。數據結構和演算法：什麼是數據結構，什麼是數據，在電腦內部數據為01010101。。。，數據是我們生活中一切的事務都可以表示為數據，如你和你朋友聊天的話都是數 ...
spring集成Junit做單元測試及常見異常解決辦法

spring-test依賴包 1、簡單單元測試 2、模擬前端請求單元測試 3、Junit常見異常及解決辦法異常：java.lang.IllegalStateException: Failed to load ApplicationContext 解決方法：java1.8版本只支持spring4.0 ...
Python爬蟲獲取圖片並下載保存至本地的實例

今天小編就為大家分享一篇Python爬蟲獲取圖片並下載保存在本地的實例，具有很好的參考價值，希望對大家有所幫助。一起來看看吧！ 1.抓取煎蛋網上的圖片 2.代碼如下以上這篇Python爬蟲獲取圖片並下載保存至本地的實例就是小編分享給大家的全部內容了，希望給大家一個參考，也希望大家多多支持小編！那 ...