解決ecplise+phthon2.7中使用pytesser和tesseract進行ocr，出現報錯的問題

-Advertisement-

網上很多使用ecplise+phthon2.7中使用pytesser或者tesseract進行OCR網站驗證碼的案例，但配置起來實在讓人崩潰。通用步驟：1、下載了pytesser_v0.0.1； 2、然後解壓後拷貝到C:\ProgramData\Anaconda2\Lib\site-package ...

網上很多使用ecplise+phthon2.7中使用pytesser或者tesseract進行OCR網站驗證碼的案例，但配置起來實在讓人崩潰。

通用步驟：
1、下載了pytesser_v0.0.1；

2、然後解壓後拷貝到C:\ProgramData\Anaconda2\Lib\site-packages；

3、文件夾名字改為pytesser；

4、然後在C:\ProgramData\Anaconda2\Lib\site-packages文件夾下新建一個文件，起名為pytesser.pth，內容為pytesser

5、然後在C:\ProgramData\Anaconda2\Lib\site-packages\pytesser\pytesser.py文件中第六行，更改import Image 為 from PIL import Image；

6、然後在ecplice界面中寫代碼：

from PIL import Image    
from pytesser import * im = Image.open('C:\\ProgramData\\Anaconda2\\Lib\\site-packages\\pytesser\\phototest.tif')
im.show()

沒問題，圖片順利的打開了。

7、然後調用了下oCR的函數：

print image_to_string(im)

然後就無窮無盡的報錯。

ecplice的錯誤提示還毫無幫助，只提示：

Traceback (most recent call last):
  File "C:\Users\TF-2016\Desktop\spider\ruijie\ruijie.py", line 33, in <module>
    print image_file_to_string('11.png', graceful_errors=True)
  File "C:\Python27\lib\site-packages\pytesser\pytesser.py", line 48, in image_file_to_string
    call_tesseract(filename, scratch_text_name_root)
  File "C:\Python27\lib\site-packages\pytesser\pytesser.py", line 23, in call_tesseract
    proc = subprocess.Popen(args)
  File "C:\Python27\lib\subprocess.py", line 710, in __init__
    errread, errwrite)
  File "C:\Python27\lib\subprocess.py", line 958, in _execute_child
    startupinfo)
WindowsError: [Error 2]

網上找了兩個小時，很多人遇到這個問題，幾乎沒有解決的，最後發現有人說起了：http://blog.csdn.net/c465869935/article/details/51438576

qq_38717146
2017-05-09 17:454樓回覆
剛剛碰巧給解決了。找到你的pytesseract.py這個文件，將其中的tesseract_cmd = 'tesseract'這行改為tesseract_cmd = r'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'即可。

然後我決定下載一個最新版的tesseract 3.0.2版，不再依靠pytesseract自帶的那個1.01版本了。

下載後安裝，然後在pytesseract.py中把tesseract_exe_name = 'tesseract' # Name of executable to be called at command line 改為：

tesseract_exe_name = r'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe' # 'tesseract' Name of executable to be called at command line

然後運行，ok了，可以ocr英文和數字了。

但遺憾的是，中文庫是谷歌的網址，下載不下來，如果能下載下來，很期待ocr中文的效果。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

【設計模式學習筆記】之裝飾者模式

作用：裝飾者設計模式的作用是使被裝飾者的功能更強大，比如一把ak47裝上消聲器，裝上瞄準鏡，槍的使用方式不變，改變的是這把槍的功能更加強大，功能更多。舉例1：女人可以通過化妝、受教育、禮貌變身成化妝的女人（顏值+）、高智商的女人（IQ+）、有禮貌的女人（禮貌用語用的更多）註意：為了顯示出視 ...
分散式事務一致性實現的方式總結

因為最近項目正在做重構，而這次重構實質上比原來更接近於SOA化和微服務的思想。對於我們金融交易來說，數據結果的準確性是重中之重。所以今天總結一下分散式事務的實現方法，下次組內周會給大家統一一下概念。剛性事務和柔性事務剛性事務：嚴格遵循ACID原則（原子性、一致性、隔離性、持久性）的事務。基本上指 ...
Django中不返回QuerySets的API -- Django從入門到精通系列教程

該系列教程系個人原創，並完整發佈在個人官網 "劉江的博客和教程" 所有轉載本文者，需在頂部顯著位置註明原作者及www.liujiangblog.com官網地址。 Python及Django學習QQ群：453131687 以下的方法不會返回QuerySets，但是作用非常強大，尤其是粗體顯示的方法，需 ...
中國剩餘定理詳解

引入我國古代數學著作《孫子算經》中有一道題目，它的描述是這樣的今有物不知其數，三三數之餘二；五五數之餘三；七七數之餘二。問物幾何？這道題用現代數學理論來看，無非就是解一個方程 \begin{cases}x\equiv 2\left( mod\ 3\right) \\x\equiv 3\left ...
9.4、__del__、__doc__、__dict__、__module__、__getitem__、__setitem__、__delitem__、__str__、__call__

__del__: 被稱為析構函數當刪除一個對象時，python解釋器會預設調用__del__()方法 import gc class Dog(object): def __init__(self,name): self.name=name def __del__(self): print("刪除成... ...
java基礎(三) 加強型for迴圈與Iterator

引言從JDK1.5起，增加了加強型的for迴圈語法，也被稱為 “for Each 迴圈”。加強型迴圈在操作數組與集合方面增加了很大的方便性。那麼，加強型for迴圈是怎麼解析的呢？同時，這是不是意味著基本for迴圈就會被取代呢？語法：一、數組中的 for Each 迴圈 ...
java面試題：已知一個數組[2,4,6,2,1,5],將該數組進行排序（降序，不能用工具類進行排序），創建兩條線程交替輸出排序後的數組，線程名自定義

上邊是測試類，進行了快速排序和工具類排序建立了一個實現Runnable介面的對象，並傳遞參數建立兩個線程並啟動線程通過notify喚醒其他線程，通過wait停止自身線程，通過flag標誌為交替切換線程 ...
java基礎(二) 自增自減與貪心規則

引言 JDK中提供了自增運算符++，自減運算符。這兩個操作符各有兩種使用方式：首碼式（++ a, a），尾碼式（a++，a ）。可能說到這裡，說不得有讀者就會吐槽說，前尾碼式都挺簡單的，首碼式不就是先進行+1（或 1），然後再使用該值參與運算嘛，尾碼式則相反。有必要長篇大論 ...

解決ecplise+phthon2.7中使用pytesser和tesseract進行ocr，出現報錯的問題

qq_38717146