我們在做採集數據的時候,過快或者訪問頻繁,或者一訪問就給彈出驗證碼,然後就蚌珠了~ 今天就給大家來一個簡單處理驗證碼的方法 環境模塊 本文使用的是 Python和pycharm 這裡需要用到一個 ddddocr 模塊 ,這是別人開源寫好的一個東西,簡單又好用,但是精確度差一點點,但是還是非常好用的。 ...
我們在做採集數據的時候,過快或者訪問頻繁,或者一訪問就給彈出驗證碼,然後就蚌珠了~
今天就給大家來一個簡單處理驗證碼的方法
環境模塊
本文使用的是 Python和pycharm
這裡需要用到一個 ddddocr 模塊 ,這是別人開源寫好的一個東西,簡單又好用,但是精確度差一點點,但是還是非常好用的。
如果你追求精確度的話,可以調用別人寫好的一些API 。
咱們直接 win+r 彈出搜索框後輸入 cmd ,點擊確定彈出命令提示符視窗, 輸入pip install ddddocr 即可安裝。
代碼展示
代碼不多,非常簡單。
模塊安裝好之後咱們先導入一下
import ddddocr
然後實例化一下,用一個 cor 接收一下這個數據。
ocr = ddddocr.DdddOcr()
我這裡準備了四個驗證碼
分別實現一下驗證碼
首先我們用 with open 來讀取一下這文件,讀取方式使用 rb ,因為是圖片的話就讀取它的二進位數據
with open('img_3.png', 'rb') as f:
使用 f.read() 將數據讀取出來,再自定義一個變數接收一下。
img_bytes = f.read()
然後我們通過 classification 將它傳進去,把結果列印出來就可以了。
result = ocr.classification(img_bytes) print(result)
# 很多小伙伴經常因為在學習的過程中因為沒有好的學習資料、不清楚學習方向要學什麼知識點,以及遇到問題不能及時得到解決,所以導致學習堅持不下去。 # 我給大家準備了2022最新的Python學習路線圖和學習資料、視頻教程、電子書等等,都放在這個群里了,還有大佬不定時解答問題,同更多志同道合的伙伴一起學習、一起進步! # python學習交流1群:815624229 (一群已滿 加2群)## # Python學習交流2群:279199867 ##
實現效果
純數字的
字母+數字的
可以看到都完整的識別出來了,即使上面有一些花里胡哨的橫線啥的。
完整代碼
import ddddocr ocr = ddddocr.DdddOcr() with open('img_3.png', 'rb') as f: img_bytes = f.read() result = ocr.classification(img_bytes) print(result)
大家可以自己去試試,也可以直接應用在採集數據實踐當中~
創作不易,大家幫忙點個收藏吧~