前言 使用opencv對圖像進行操作,要求:(1)定位銀行票據的四條邊,然後旋正。(2)根據版面分析,分割出小寫金額區域。 圖像校正 首先是對圖像的校正 讀取圖片 對圖片二值化 進行邊緣檢測 對邊緣的進行霍夫曼變換 將變換結果從極坐標空間投影到笛卡爾坐標得到傾斜角 根據傾斜角對主體校正 import ...
前言
使用opencv對圖像進行操作,要求:(1)定位銀行票據的四條邊,然後旋正。(2)根據版面分析,分割出小寫金額區域。
圖像校正
首先是對圖像的校正
- 讀取圖片
- 對圖片二值化
- 進行邊緣檢測
- 對邊緣的進行霍夫曼變換
- 將變換結果從極坐標空間投影到笛卡爾坐標得到傾斜角
- 根據傾斜角對主體校正
import os
import cv2
import math
import numpy as np
from scipy import ndimage
filepath = './task1-misc/'
filename = 'bank-bill.bmp'
filename_correct = 'bank-bill-correct.png'
def image_correction(input_path: str, output_path: str) -> bool:
# 讀取圖像
img = cv2.imread(input_path)
# 二值化
gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
# 邊緣檢測
edges = cv2.Canny(gray,50,150,apertureSize = 3)
#霍夫變換
lines = cv2.HoughLines(edges,1,np.pi/180,0)
for rho,theta in lines[0]:
a = np.cos(theta) # 將極坐標轉換為直角坐標
b = np.sin(theta)
x0 = a*rho
y0 = b*rho
x1 = int(x0 + 1000*(-b)) # 保證端點夠遠能夠覆蓋整個圖像
y1 = int(y0 + 1000 * a)
x2 = int(x0 - 1000*(-b))
y2 = int(y0 - 1000 * a)
if x1 == x2 or y1 == y2:
continue
t = float(y2-y1)/(x2-x1)
# 得到角度後將角度範圍調整至-45至45度之間
rotate_angle = math.degrees(math.atan(t))
if rotate_angle > 45:
rotate_angle = -90 + rotate_angle
elif rotate_angle < -45:
rotate_angle = 90 + rotate_angle
# 圖像根據角度進行校正
rotate_img = ndimage.rotate(img, rotate_angle)
# 在圖中畫出線
cv2.line(img, (x1, y1), (x2, y2), (0, 0, 255), 2)
cv2.imwrite(filepath + 'marked-'+filename_correct, img)
# 輸出圖像
cv2.imwrite(output_path, rotate_img)
return True
input_path = filepath + filename
output_path = filepath + filename_correct
if image_correction(input_path, output_path):
print("角度校正成功")
圖(左)中的紅線斜率和偏置是經過霍夫變換併進行極坐標轉換後得到,後續將根據這條線進行角度的校正,校正後的結果如圖(右)所示。
filename_clear = 'bank-bill-clear.png'
# 去除背景
def remove_background(input_path: str, output_path: str) -> bool:
# 讀取圖像
img = cv2.imread(input_path, cv2.IMREAD_UNCHANGED)
# 檢查是否已經具有 alpha 通道,如果沒有則創建一個
if img.shape[2] == 3:
alpha_channel = np.ones_like(img[:, :, 0], dtype=img.dtype) * 255
img = np.dstack((img, alpha_channel))
# 提取圖像的 alpha 通道(透明度)
alpha_channel = img[:, :, 3]
# 將白色或黑色(背景)的像素設置為透明
alpha_channel[(img[:, :, :3] == [255, 255, 255]).all(axis=2)] = 0
alpha_channel[(img[:, :, :3] == [0, 0, 0]).all(axis=2)] = 0
# 保存為帶有透明通道的 PNG 圖像
cv2.imwrite(output_path, img)
return True
input_path = filepath + filename_correct
output_path = filepath + filename_clear
if remove_background(input_path, output_path):
print("去除背景成功")
版面分析與分割金額區域
使用opencv對圖像進行版面分析得到表格線的投影。
def detectTable(img, save_path):
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
thresh_img = cv2.adaptiveThreshold(~gray_img,255,cv2.ADAPTIVE_THRESH_MEAN_C,cv2.THRESH_BINARY,15,-2)
h_img = thresh_img.copy()
v_img = thresh_img.copy()
scale = 20
h_size = int(h_img.shape[1]/scale)
h_structure = cv2.getStructuringElement(cv2.MORPH_RECT,(h_size,1)) # 形態學因數
h_erode_img = cv2.erode(h_img,h_structure,1)
h_dilate_img = cv2.dilate(h_erode_img,h_structure,1)
# cv2.imshow("h_erode",h_dilate_img)
v_size = int(v_img.shape[0] / scale)
v_structure = cv2.getStructuringElement(cv2.MORPH_RECT, (1, v_size)) # 形態學因數
v_erode_img = cv2.erode(v_img, v_structure, 1)
v_dilate_img = cv2.dilate(v_erode_img, v_structure, 1)
mask_img = h_dilate_img+v_dilate_img
joints_img = cv2.bitwise_and(h_dilate_img,v_dilate_img)
joints_img = cv2.dilate(joints_img,None,iterations=3)
cv2.imwrite(os.path.join(save_path, "joints.png"),joints_img)
cv2.imwrite(os.path.join(save_path, "mask.png"), mask_img)
return joints_img, mask_img
img = cv2.imread(os.path.join(filepath, filename_clear))
_, mask_img = detectTable(img, save_path=filepath)
投影得到兩張圖,一張表示交叉點的投影,另一張表示表格線的投影,如下圖所示,後續的邊緣檢測我們將用到右側的圖。
def find_bound(img):
# 查找圖像中的輪廓
contours, _ = cv2.findContours(img, cv2.RETR_CCOMP, cv2.CHAIN_APPROX_TC89_L1)
# 遍歷所有輪廓
site = []
for contour in contours:
# 計算邊界矩形
x, y, w, h = cv2.boundingRect(contour)
if 20 < w < 35 and 20 <h < 35:
site.append((x, y, w, h),)
site.sort(key=lambda x: (x[0], x[1], x[2], x[3]))
return site
site = find_bound(mask_img)
對mask.png
,使用邊緣檢測,獲取各個邊緣的位置信息,根據所得的位置信息,在bank-bill-clear.png
(對原圖矯正角度並去除背景)中裁剪,並限製裁剪的圖像塊長寬在(20,35)的區間範圍(實際嘗試中並不能檢測到金額區域的完整邊緣,而是金額區域每個方形的邊緣,(20,35)表示每個方形的長寬區間範圍,如下圖所示)。
save_path = './task1-result'
if os.path.exists(save_path) is False:
os.makedirs(save_path)
for i in site:
x, y, w, h = i
cv2.imwrite(os.path.join(save_path, f"{x}-{y}-{w}-{h}.png"), img[y:y+h, x:x+w])
(x0, y0, w, h) = site[0]
x, y = x0+(w+2)*11, y0+h*2
cv2.imwrite(os.path.join(save_path, "res.png"), img[y0:y, x0:x])
對裁剪的圖像塊的坐標進行排序,推測出完整金額的具體位置,並再次裁剪,得到最後結果
運行環境
numpy==1.26.2
opencv_contrib_python==4.6.0.66
opencv_python==4.6.0.66
scipy==1.11.4