筆者環境 centos7 python3 pytesseract只是tesseract-ocr的一種實現介面。所以要先安裝tesseract-ocr(大名鼎鼎的開源的OCR識別引擎)。 依賴安裝 安裝依賴的leptonica庫 安裝tesseract-ocr 安裝語言包: 安裝pytesseract ...
筆者環境 centos7 python3
pytesseract只是tesseract-ocr的一種實現介面。所以要先安裝tesseract-ocr(大名鼎鼎的開源的OCR識別引擎)。
依賴安裝
yum install-y automake autoconf libtool gcc gcc-c++ yum install-y libpng-devel libjpeg-devel libtiff-devel giflib-devel
安裝依賴的leptonica庫
wget http://www.leptonica.com/source/leptonica-1.72.tar.gz tar -xzvf leptonica-1.72.tar.gz cd leptonica-1.72 ./configure make && make install
安裝tesseract-ocr
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz mv 3.04.00 Tesseract3.04.00.tar.gz tar -xvf Tesseract3.04.00.tar.gz cd tesseract-3.04.00/ ./configure make && make install
安裝語言包:
wget https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata #英文預設包 wget https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata #中文繁體 wget https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata #中文簡體 cp/mv *.traineddata /usr/local/share/tessdata/ #移動下載的包到/usr/local/share/tessdata/ 這個路徑下,也可以手動移動
安裝pytesseract:
pip install Pillow pip install pytesseract
至此安裝完成,附上使用方法:
import pytesseract from PIL import Imag image = Image.open("port_img.jpg") text = pytesseract.image_to_string(image) print(text)
參考資料:
https://www.cnblogs.com/dajianshi/p/4932882.html
https://stackoverflow.com/questions/33659458/tesseract-image-issue