解決ecplise+phthon2.7中使用pytesser和tesseract進行ocr,出現報錯的問題

来源:https://www.cnblogs.com/telephoner/archive/2018/02/06/8424796.html
-Advertisement-
Play Games

網上很多使用ecplise+phthon2.7中使用pytesser或者tesseract進行OCR網站驗證碼的案例,但配置起來實在讓人崩潰。 通用步驟:1、下載了pytesser_v0.0.1; 2、然後解壓後拷貝到C:\ProgramData\Anaconda2\Lib\site-package ...


網上很多使用ecplise+phthon2.7中使用pytesser或者tesseract進行OCR網站驗證碼的案例,但配置起來實在讓人崩潰。

通用步驟:
1、下載了pytesser_v0.0.1;

2、然後解壓後拷貝到C:\ProgramData\Anaconda2\Lib\site-packages;

3、文件夾名字改為pytesser;

4、然後在C:\ProgramData\Anaconda2\Lib\site-packages文件夾下新建一個文件,起名為pytesser.pth,內容為pytesser

5、然後在C:\ProgramData\Anaconda2\Lib\site-packages\pytesser\pytesser.py文件中第六行,更改import Image  為 from PIL import Image;

6、然後在ecplice界面中寫代碼:

from PIL import Image    
from pytesser import * im = Image.open('C:\\ProgramData\\Anaconda2\\Lib\\site-packages\\pytesser\\phototest.tif')
im.show()

沒問題,圖片順利的打開了。

7、然後調用了下oCR的函數:

print image_to_string(im)

然後就無窮無盡的報錯。

ecplice的錯誤提示還毫無幫助,只提示:

Traceback (most recent call last):
  File "C:\Users\TF-2016\Desktop\spider\ruijie\ruijie.py", line 33, in <module>
    print image_file_to_string('11.png', graceful_errors=True)
  File "C:\Python27\lib\site-packages\pytesser\pytesser.py", line 48, in image_file_to_string
    call_tesseract(filename, scratch_text_name_root)
  File "C:\Python27\lib\site-packages\pytesser\pytesser.py", line 23, in call_tesseract
    proc = subprocess.Popen(args)
  File "C:\Python27\lib\subprocess.py", line 710, in __init__
    errread, errwrite)
  File "C:\Python27\lib\subprocess.py", line 958, in _execute_child
    startupinfo)
WindowsError: [Error 2] 

網上找了兩個小時,很多人遇到這個問題,幾乎沒有解決的,最後發現有人說起了:http://blog.csdn.net/c465869935/article/details/51438576

  • qq_38717146

    2017-05-09 17:454樓  回覆
  • 剛剛碰巧給解決了。找到你的pytesseract.py這個文件,將其中的tesseract_cmd = 'tesseract'這行改為tesseract_cmd = r'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'即可。

然後我決定下載一個最新版的tesseract 3.0.2版,不再依靠pytesseract自帶的那個1.01版本了。

下載後安裝,然後在pytesseract.py中把tesseract_exe_name = 'tesseract' # Name of executable to be called at command line  改為:

tesseract_exe_name = r'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe' #  'tesseract' Name of executable to be called at command line

然後運行,ok了,可以ocr英文和數字了。

但遺憾的是,中文庫是谷歌的網址,下載不下來,如果能下載下來,很期待ocr中文的效果。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 作用: 裝飾者設計模式的作用是使被裝飾者的功能更強大,比如一把ak47裝上消聲器,裝上瞄準鏡,槍的使用方式不變,改變的是這把槍的功能更加強大,功能更多。 舉例1: 女人可以通過化妝、受教育、禮貌 變身成化妝的女人(顏值+)、高智商的女人(IQ+)、有禮貌的女人(禮貌用語用的更多) 註意:為了顯示出視 ...
  • 因為最近項目正在做重構,而這次重構實質上比原來更接近於SOA化和微服務的思想。對於我們金融交易來說,數據結果的準確性是重中之重。所以今天總結一下分散式事務的實現方法,下次組內周會給大家統一一下概念。 剛性事務和柔性事務 剛性事務:嚴格遵循ACID原則(原子性、一致性、隔離性、持久性)的事務。基本上指 ...
  • 該系列教程系個人原創,並完整發佈在個人官網 "劉江的博客和教程" 所有轉載本文者,需在頂部顯著位置註明原作者及www.liujiangblog.com官網地址。 Python及Django學習QQ群:453131687 以下的方法不會返回QuerySets,但是作用非常強大,尤其是粗體顯示的方法,需 ...
  • 引入 我國古代數學著作《孫子算經》中有一道題目,它的描述是這樣的 今有物不知其數,三三數之餘二;五五數之餘三;七七數之餘二。問物幾何? 這道題用現代數學理論來看,無非就是解一個方程 \begin{cases}x\equiv 2\left( mod\ 3\right) \\x\equiv 3\left ...
  • __del__: 被稱為析構函數 當刪除一個對象時,python解釋器會預設調用__del__()方法 import gc class Dog(object): def __init__(self,name): self.name=name def __del__(self): print("刪除成... ...
  • 引言   從JDK1.5起,增加了加強型的for迴圈語法,也被稱為 “for Each 迴圈”。加強型迴圈在操作數組與集合方面增加了很大的方便性。那麼,加強型for迴圈是怎麼解析的呢?同時,這是不是意味著基本for迴圈就會被取代呢? 語法: 一、數組中的 for Each 迴圈 ...
  • 上邊是測試類,進行了快速排序 和工具類排序 建立了一個實現Runnable介面的對象,並傳遞參數 建立兩個線程並啟動線程 通過notify喚醒其他線程,通過wait停止自身線程,通過flag標誌為交替切換線程 ...
  • 引言   JDK中提供了自增運算符++,自減運算符 。這兩個操作符各有兩種使用方式:首碼式(++ a, a),尾碼式(a++,a )。可能說到這裡,說不得有讀者就會吐槽說,前尾碼式都挺簡單的,首碼式不就是先進行+1(或 1),然後再使用該值參與運算嘛,尾碼式則相反。有必要長篇大論 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...