pytesseract and ddddocr

来源:https://www.cnblogs.com/lihongtaoya/archive/2023/07/24/17577991.html
-Advertisement-
Play Games

一.pytesseract 1.簡介 Pytesseract是一個Python庫,用於將圖像中的文本轉換為可編輯的字元串。它是基於Google的Tesseract OCR引擎開發的 。Tesseract是一個開源的OCR引擎,能夠識別超過100種語言的文字。Pytesseract簡化了與Tesser ...


一.pytesseract

1.簡介

 Pytesseract是一個Python庫,用於將圖像中的文本轉換為可編輯的字元串。它是基於Google的Tesseract OCR引擎開發的 。Tesseract是一個開源的OCR引擎,能夠識別超過100種語言的文字。Pytesseract簡化了與Tesseract的集成過程,並提供了一個簡單的API,使得在Python中使用OCR功能變得更加容易

2.環境配置

1)下載程式並安裝,下載地址:https://digi.bib.uni-mannheim.de/tesseract/

 安裝的時候記得勾選下載的語言,全選即可。

2)終端下載pytesseract庫

pip install pytesseract

下載安裝完成之後在當前項目下找到venv\Lib\site-packages\pytesseract\pytesseract.py文件,修改tesseract_cmd值

3.基本用法

我們要識別圖片文字,最常用的方法就是image_to_string,語法如下,通常使用時傳兩個參數即可,要識別的圖片和語言類型

def image_to_string(
    image,
    lang=None,
    config='',
    nice=0,
    output_type=Output.STRING,
    timeout=0,
):

下麵看下實例

result_text = pytesseract.image_to_string("./img/img_5.png", lang='chi_sim')

# 輸出結果
print(result_text)

如果涉及到識別的圖片中存在多種語言,可以在lang中添加多種語言,用+號連接起來

import pytesseract
from PIL import Image


img = Image.open(url) text = pytesseract.image_to_string(img, lang='chi_sim+eng') # 識別中文和英文

各種語言類型如下圖

eng
英文
chi_sim
簡體中文
chi_tra
繁體中文
ara
阿拉伯文
jpn
日文
kor
韓文
spa
西班牙文
fra
法文
deu 德文
ita 義大利文
por 葡撻文
rus 俄文
vie 越南文
tha 泰文
tur 土耳其文
dan 丹麥文
nld 荷蘭文
fin 芬蘭文
nor 挪威文
swe 瑞典文
hun 匈牙利文
cze 捷克文
pol 波蘭文
slk 斯洛伐克文
slv 斯洛維尼亞文
bul 保加利亞文
ell 希臘文
est 愛沙尼亞文
lit 立陶宛文
lav 拉脫維亞文
ron 羅馬尼亞文
srp 塞爾尼亞文
ukr 烏克蘭文
hin 印地文
ben 孟加拉文
mar 馬拉地文
tam 泰米爾文
tel 泰盧固問
kan 卡納達文
mal 瑪拉雅拉姆文
orl 奧里亞文
pan 旁遮普文
guj 古吉拉特文
sin 僧伽羅文
mya 緬甸文

 

二.ddddocr

1.簡介

OCR是一種將印刷或手 寫文本轉換為可編輯文本的技術。ddddOCR利用深度學習演算法識別圖像中的字元,並將其轉換為可編輯的文本。它可以應用於各種場景, 如掃描文檔、圖像識別、車牌識別等。ddddOCR具有高準確性和高效率,可以在短時間內處理大量的圖像,並能夠適應不同的字體和文字 樣式。它可以應用於各種領域,如辦公自動化、數據輸入、圖像處理等。

2.環境配置

 pip install ddddocr

3.基本用法

import ddddocr

ocr1 = ddddocr.DdddOcr()  # 實例化
with open("./img_2.png", 'rb') as f:
    img_bytes = f.read()
result_text = ocr1.classification(img_bytes)
print(result_text)

個人覺得ddddocr識別的特不准,畢竟是免費的,要想準確識別可以參考超級鷹:https://www.cnblogs.com/lihongtaoya/p/16727694.html

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 之前的時候大哥就讓我自己搭架子,但是我拖延症,現在用到了,得自己搭了 我的項目都放到了 VuePorjects這個目錄裡面, 一、先進入到指定工作目錄,(不是你要創建的項目的名稱哈) cd VuePorjects/ 二、創建vue3項目,安裝創建項目 npm create vite @latest ...
  • 距離Vue 3.0正式發佈已經過去一段時間了,2月7日Vue團隊正式宣佈Vue 3正式成為新的預設版本。最近接觸的新項目也使用Vue 3.0來開發,因此有必要對它進行一波總結和學習。 ...
  • 這裡給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 前言 小王,你的頁面白屏了,趕快修複一下。小王排查後發現是服務端傳回來的數據格式不對導致,無數據時傳回來不是 [] 而是 null, 從而導致 forEach 方法報錯導致白屏,於是告訴測試,這是服務端的錯誤導致,要讓服務端來修改,結果測 ...
  • Docker 是什麼 先看看百科的定義: Docker 是一個開源的應用容器引擎,讓開發者可以打包他們的應用以及依賴包到一個可移植的鏡像中,然後發佈到任何流行的Linux或Windows操作系統的機器上,也可以實現虛擬化。容器是完全使用沙箱機制,相互之間不會有任何介面。 容器引擎?鏡像?容器?虛擬化 ...
  • 一、Array.from使用 通常Array都用於數組去重。下麵是Array的詳細用法: 1.將類似組轉化為真正的數組 函數參數轉化為數組 dom轉化為數組 這裡強調一下, 必須有length屬性,否則返回的是空數組。 索引必須是字元串數字,否則返回的是[undefined,undefined,un ...
  • 京銷易系統已經接入大網、KA以及雲倉三個條線商機,每個條線商機規則差異比較大,當前現狀是獨立實現三套系統分別做支撐。 ...
  • 本文主要講述了應對複雜性的一些原則和經驗,通過實際案例解構設計思想,個人認為好的設計是體現在「職責分離」、「抽象分層」和「變化擴展」上,在類的結構設計上尤其要花心思去想,如「變與不變分離」、「配置域與執行域分離」、「查詢與命令分離」。 ...
  • 容器安全是實施和管理像Docker這樣的容器技術的關鍵方面。它包括一組實踐、工具和技術,旨在保護容器化應用程式及其運行的基礎架構。在本節中,我們將討論一些關鍵的容器安全考慮因素、最佳實踐和建議。 ### **容器隔離** 隔離對於確保容器化環境的強大性和安全性至關重要。容器應該相互隔離,並與主機系統 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...