pytesseract and ddddocr_ZenDei技術網路在線

pytesseract and ddddocr

-Advertisement-

一.pytesseract 1.簡介 Pytesseract是一個Python庫，用於將圖像中的文本轉換為可編輯的字元串。它是基於Google的Tesseract OCR引擎開發的。Tesseract是一個開源的OCR引擎，能夠識別超過100種語言的文字。Pytesseract簡化了與Tesser ...

一.pytesseract

1.簡介

Pytesseract是一個Python庫，用於將圖像中的文本轉換為可編輯的字元串。它是基於Google的Tesseract OCR引擎開發的。Tesseract是一個開源的OCR引擎，能夠識別超過100種語言的文字。Pytesseract簡化了與Tesseract的集成過程，並提供了一個簡單的API，使得在Python中使用OCR功能變得更加容易

2.環境配置

1）下載程式並安裝，下載地址：https://digi.bib.uni-mannheim.de/tesseract/

安裝的時候記得勾選下載的語言，全選即可。

2）終端下載pytesseract庫

pip install pytesseract

下載安裝完成之後在當前項目下找到venv\Lib\site-packages\pytesseract\pytesseract.py文件，修改tesseract_cmd值

3.基本用法

我們要識別圖片文字，最常用的方法就是image_to_string，語法如下，通常使用時傳兩個參數即可，要識別的圖片和語言類型

def image_to_string(
    image,
    lang=None,
    config='',
    nice=0,
    output_type=Output.STRING,
    timeout=0,
):

下麵看下實例

result_text = pytesseract.image_to_string("./img/img_5.png", lang='chi_sim')

# 輸出結果
print(result_text)

如果涉及到識別的圖片中存在多種語言，可以在lang中添加多種語言，用+號連接起來

import pytesseract
from PIL import Image



img = Image.open(url)
text = pytesseract.image_to_string(img, lang='chi_sim+eng')  # 識別中文和英文

各種語言類型如下圖

eng	英文
chi_sim	簡體中文
chi_tra	繁體中文
ara	阿拉伯文
jpn	日文
kor	韓文
spa	西班牙文
fra	法文
deu	德文
ita	義大利文
por	葡撻文
rus	俄文
vie	越南文
tha	泰文
tur	土耳其文
dan	丹麥文
nld	荷蘭文
fin	芬蘭文
nor	挪威文
swe	瑞典文
hun	匈牙利文
cze	捷克文
pol	波蘭文
slk	斯洛伐克文
slv	斯洛維尼亞文
bul	保加利亞文
ell	希臘文
est	愛沙尼亞文
lit	立陶宛文
lav	拉脫維亞文
ron	羅馬尼亞文
srp	塞爾尼亞文
ukr	烏克蘭文
hin	印地文
ben	孟加拉文
mar	馬拉地文
tam	泰米爾文
tel	泰盧固問
kan	卡納達文
mal	瑪拉雅拉姆文
orl	奧里亞文
pan	旁遮普文
guj	古吉拉特文
sin	僧伽羅文
mya	緬甸文

二.ddddocr

1.簡介

OCR是一種將印刷或手寫文本轉換為可編輯文本的技術。ddddOCR利用深度學習演算法識別圖像中的字元，並將其轉換為可編輯的文本。它可以應用於各種場景，如掃描文檔、圖像識別、車牌識別等。ddddOCR具有高準確性和高效率，可以在短時間內處理大量的圖像，並能夠適應不同的字體和文字樣式。它可以應用於各種領域，如辦公自動化、數據輸入、圖像處理等。

2.環境配置

 pip install ddddocr

3.基本用法

import ddddocr

ocr1 = ddddocr.DdddOcr()  # 實例化
with open("./img_2.png", 'rb') as f:
    img_bytes = f.read()
result_text = ocr1.classification(img_bytes)
print(result_text)

個人覺得ddddocr識別的特不准，畢竟是免費的，要想準確識別可以參考超級鷹：https://www.cnblogs.com/lihongtaoya/p/16727694.html

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

vue3創建項目，vite+js

之前的時候大哥就讓我自己搭架子，但是我拖延症，現在用到了，得自己搭了我的項目都放到了 VuePorjects這個目錄裡面，一、先進入到指定工作目錄，（不是你要創建的項目的名稱哈） cd VuePorjects/ 二、創建vue3項目，安裝創建項目 npm create vite @latest ...
手摸手帶你初探Vue 3.0

距離Vue 3.0正式發佈已經過去一段時間了，2月7日Vue團隊正式宣佈Vue 3正式成為新的預設版本。最近接觸的新項目也使用Vue 3.0來開發，因此有必要對它進行一波總結和學習。 ...
記錄--你的代碼不堪一擊！太爛了！

這裡給大家分享我在網上總結出來的一些知識，希望對大家有所幫助前言小王，你的頁面白屏了，趕快修複一下。小王排查後發現是服務端傳回來的數據格式不對導致，無數據時傳回來不是 [] 而是 null, 從而導致 forEach 方法報錯導致白屏，於是告訴測試，這是服務端的錯誤導致，要讓服務端來修改，結果測 ...
前端認識docker

Docker 是什麼先看看百科的定義： Docker 是一個開源的應用容器引擎，讓開發者可以打包他們的應用以及依賴包到一個可移植的鏡像中，然後發佈到任何流行的Linux或Windows操作系統的機器上，也可以實現虛擬化。容器是完全使用沙箱機制，相互之間不會有任何介面。容器引擎？鏡像？容器？虛擬化 ...
Array.from使用以及與[...obj]的區別

一、Array.from使用通常Array都用於數組去重。下麵是Array的詳細用法： 1.將類似組轉化為真正的數組函數參數轉化為數組 dom轉化為數組這裡強調一下，必須有length屬性，否則返回的是空數組。索引必須是字元串數字，否則返回的是[undefined,undefined,un ...
CRM系統化整合從N-1做減法實踐

京銷易系統已經接入大網、KA以及雲倉三個條線商機，每個條線商機規則差異比較大，當前現狀是獨立實現三套系統分別做支撐。 ...
實戰總結｜複雜系統設計原則與案例

本文主要講述了應對複雜性的一些原則和經驗，通過實際案例解構設計思想，個人認為好的設計是體現在「職責分離」、「抽象分層」和「變化擴展」上，在類的結構設計上尤其要花心思去想，如「變與不變分離」、「配置域與執行域分離」、「查詢與命令分離」。 ...
[爬蟲]1.2.1 HTML標簽和屬性

容器安全是實施和管理像Docker這樣的容器技術的關鍵方面。它包括一組實踐、工具和技術，旨在保護容器化應用程式及其運行的基礎架構。在本節中，我們將討論一些關鍵的容器安全考慮因素、最佳實踐和建議。 ### **容器隔離** 隔離對於確保容器化環境的強大性和安全性至關重要。容器應該相互隔離，並與主機系統 ...