一.pytesseract 1.簡介 Pytesseract是一個Python庫,用於將圖像中的文本轉換為可編輯的字元串。它是基於Google的Tesseract OCR引擎開發的 。Tesseract是一個開源的OCR引擎,能夠識別超過100種語言的文字。Pytesseract簡化了與Tesser ...
一.pytesseract
1.簡介
Pytesseract是一個Python庫,用於將圖像中的文本轉換為可編輯的字元串。它是基於Google的Tesseract OCR引擎開發的 。Tesseract是一個開源的OCR引擎,能夠識別超過100種語言的文字。Pytesseract簡化了與Tesseract的集成過程,並提供了一個簡單的API,使得在Python中使用OCR功能變得更加容易
2.環境配置
1)下載程式並安裝,下載地址:https://digi.bib.uni-mannheim.de/tesseract/
安裝的時候記得勾選下載的語言,全選即可。
2)終端下載pytesseract庫
pip install pytesseract
下載安裝完成之後在當前項目下找到venv\Lib\site-packages\pytesseract\pytesseract.py文件,修改tesseract_cmd值
3.基本用法
我們要識別圖片文字,最常用的方法就是image_to_string,語法如下,通常使用時傳兩個參數即可,要識別的圖片和語言類型
def image_to_string( image, lang=None, config='', nice=0, output_type=Output.STRING, timeout=0, ):
下麵看下實例
result_text = pytesseract.image_to_string("./img/img_5.png", lang='chi_sim') # 輸出結果 print(result_text)
如果涉及到識別的圖片中存在多種語言,可以在lang中添加多種語言,用+號連接起來
import pytesseract
from PIL import Image
img = Image.open(url) text = pytesseract.image_to_string(img, lang='chi_sim+eng') # 識別中文和英文
各種語言類型如下圖
eng |
英文 |
chi_sim |
簡體中文 |
chi_tra |
繁體中文 |
ara |
阿拉伯文 |
jpn |
日文 |
kor |
韓文 |
spa |
西班牙文 |
fra |
法文 |
deu | 德文 |
ita | 義大利文 |
por | 葡撻文 |
rus | 俄文 |
vie | 越南文 |
tha | 泰文 |
tur | 土耳其文 |
dan | 丹麥文 |
nld | 荷蘭文 |
fin | 芬蘭文 |
nor | 挪威文 |
swe | 瑞典文 |
hun | 匈牙利文 |
cze | 捷克文 |
pol | 波蘭文 |
slk | 斯洛伐克文 |
slv | 斯洛維尼亞文 |
bul | 保加利亞文 |
ell | 希臘文 |
est | 愛沙尼亞文 |
lit | 立陶宛文 |
lav | 拉脫維亞文 |
ron | 羅馬尼亞文 |
srp | 塞爾尼亞文 |
ukr | 烏克蘭文 |
hin | 印地文 |
ben | 孟加拉文 |
mar | 馬拉地文 |
tam | 泰米爾文 |
tel | 泰盧固問 |
kan | 卡納達文 |
mal | 瑪拉雅拉姆文 |
orl | 奧里亞文 |
pan | 旁遮普文 |
guj | 古吉拉特文 |
sin | 僧伽羅文 |
mya | 緬甸文 |
二.ddddocr
1.簡介
OCR是一種將印刷或手 寫文本轉換為可編輯文本的技術。ddddOCR利用深度學習演算法識別圖像中的字元,並將其轉換為可編輯的文本。它可以應用於各種場景, 如掃描文檔、圖像識別、車牌識別等。ddddOCR具有高準確性和高效率,可以在短時間內處理大量的圖像,並能夠適應不同的字體和文字 樣式。它可以應用於各種領域,如辦公自動化、數據輸入、圖像處理等。
2.環境配置
pip install ddddocr
3.基本用法
import ddddocr ocr1 = ddddocr.DdddOcr() # 實例化 with open("./img_2.png", 'rb') as f: img_bytes = f.read() result_text = ocr1.classification(img_bytes) print(result_text)
個人覺得ddddocr識別的特不准,畢竟是免費的,要想準確識別可以參考超級鷹:https://www.cnblogs.com/lihongtaoya/p/16727694.html