解析最簡單的驗證碼

来源:http://www.cnblogs.com/shouce/archive/2016/01/07/5108608.html
-Advertisement-
Play Games

最近在學python,正好遇到學校需要選宿舍,就用python寫了一個搶宿舍的軟體。其中有一個模塊是用來登陸的,登陸的時候需要輸入驗證碼,不過後來發現了直接可以繞過驗證碼直接登陸的bug。不過這是另外的話題,開始的時候我並沒有發現這個隱藏起來的秘密,所以我就寫了這個python代碼段用來實現解析驗證...


最近在學python,正好遇到學校需要選宿舍,就用python寫了一個搶宿舍的軟體。其中有一個模塊是用來登陸的,登陸的時候需要輸入驗證碼,不過後來發現了直接可以繞過驗證碼直接登陸的bug。不過這是另外的話題,開始的時候我並沒有發現這個隱藏起來的秘密,所以我就寫了這個python代碼段用來實現解析驗證碼的功能。

  我們學校的驗證碼是最簡單的驗證碼,形式大概如下:

  其中這個圖片的大小是60X24像素的,大概每個數字的大小是15X24像素。

  觀察這個驗證碼之後可以發現,驗證碼中只有數字而且數字的字體很規範,只不過每個數字的顏色不同而已。

  當時有2個思路

  1.將整張照片平均切片成四分,每個數字一個圖片,然後掃描每張照片的每個像素,為每個數字初始化一個特征碼buff,大小為15X24的byte,即總共45Byte。

  先取背景色,可以知道(0,0)位置是背景色。然後掃描數字的每個像素和背景色對比如果相同則為1不同則為0。然後分析出0-9這10個字元的特征值。等需要解析驗證碼的時候直接將驗證碼圖片分片取特征值跟標準特征值對比就可以了。

  2.我們可以想象0-9這10個字元每個字元的字形都不一樣,則有可能比如9這個數字在像素(2,12)(1,13)這個位置是獨有的,也就是說分片圖片中假如(2,12)位置的像素點和背景色一致,則該分片圖片一定不是9否則一定是9。

   上面兩種方法有一個bug就是這個圖片的第一個數字有一定的偏移,比如其他位置的數字是從第3列開始的,它可能從第4列,這個我就沒具體分析了。不過這個也有辦法解決,我用的辦法就是從第一列非背景色的地方算起。不管什麼圖片怎麼偏移,它x軸向對於自己最左邊的點的x方向的差值是不變的。

  最後我的實現方法就是按第二種,因為這種方法是最快的,只需要取特征像素處的點就可以。

      我的方法是這樣的,首先選用材料圖片三張,包含0-9這10個字元,然後校驗他們每個像素與背景色是否一致,如果一致則把這個數字放到對應這個像素的hash表裡面。

  最後分析這個hash表找出哪個像素是1個數字獨有的,哪個像素是2個數字獨有的,哪個像素3個數字獨有的,最後解析這個表。

  找到可以唯一確定一個數字的方法,比如(0,18),(0,19)這兩個數字可以唯一確定數字1。

  然後得出一個hash字典:

  

複製代碼
NumberKeyPixel={
        0: [(7,10),(0,12),(0,10),(0,11),(0,8),(1,14),(1,15)],
        1: [(4,8)],
        2 :[(0,18),(0,19)],
        3 :[], 
        4 :[(5,7)],
        5 :[(0,4),(0,10)],
        6 :[(2,6)],
        7 :[(2,16)],
        8 :[(0,12)],
        9 :[(2,13)]
        }
複製代碼

  使用的時候,只需依次比對這些像素點就可以判斷這張圖片的驗證碼值了。

下麵介紹具體代碼

1.首先是分析的時候的代碼,用來獲得數字的特征像素:

  

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 from PIL import Image import os   #存放材料圖片的路徑 path="C:\\vaildpic\\" #取得材料圖片 images=os.listdir(path) 存放數字的切片,0-9的圖片 nubimgs=[] #存放背景色 backpixels=[] #存放像素對應表 pixDir={} #首非背景色偏移值 pixBlankEndPos=[] #這個函數用來取得這個圖片中數字結構的偏移值 def GetLastBlankPosition(materialPic,x=0):     bc=materialPic.getpixel((0,0))     for in range(15):         for in range(24):             if materialPic.getpixel((i+x,j))!=bc:                 return i #因為只是解析沒有寫的很嚴謹,這個地方   #取得目標文件夾的圖片 for image in images:     if os.path.isdir(path+image):         continue     image=Image.open(path+image)    #對於每張圖片切成四份,存到字典中,取得相應的背景色,首非背景色偏移x,接下來計算用     for in range(4):        ma=image.crop((i*15,0,(i+1)*15,24))        nubimgs.append(ma)        backpixels.append(image.getpixel((0,0)))        pixBlankEndPos.append(GetLastBlankPosition(ma))     print pixBlankEndPos #對於每個數字圖片的每個像素,如果對應位置非背景色,將該圖片放到該位置的字典中,其結構如下,接下來用下麵的數據統計來取得每個數字的特征像素 '''  pixDir[pixel(x-x_offset,y),imgSeq]=picture<br>''' for in range(15):         for in range(24):             ai=None             aj=None             pixDir[(i,j)]={}             for imgNum in range(nubimgs.__len__()):                 if(nubimgs[imgNum].getpixel((i,j))!=backpixels[imgNum]):                     pixDir[(i-pixBlankEndPos[imgNum],j)][imgNum]=nubimgs[imgNum]                     """nubimgs[0].putpixel ((i,j),nubimgs[imgNum].getpixel((i,j)))"""   '''下麵將只有n個數字有的像素存到對應的文件夾中''' for pix in pixDir.items():       if pix[1].__len__()<=6:         print pix         i=0                   for pic in pix[1].items():             i+=1             if not os.path.exists(path+str(pix[1].__len__())):                 os.mkdir(path+str(pix[1].__len__()))                               pic[1].save(os.path.join(path+str(pix[1].__len__()),str(pix[0][0])+"_"+str(pix[0][1])+"__"+str(i)+".bmp"))

 材料圖片:

     

解析結果如下

     對應的文件夾中就放著n個圖片共用的像素,接下來的分析我是手動分析的,其實也可以用程式寫,不過要預先告訴程式哪個片段是什麼數字,可以通過把圖片名起為對應驗證碼來解析。因為這是後想到的,就沒有實現了。

 

2.接下來就是使用得到的特征值來解析驗證碼


下麵的方法用來取得背景色,方法同上面解析一樣,沿圖片最上面一層取顏色,因為最上面不繪製

1 2 3 4 5 6 def getBackColors(bmp):     list=[]     for in range(60):         if bmp.getpixel((i,0)) not in list:             list.append(bmp.getpixel((i,0)))     return list

 

同上面解析一樣,取得首繪偏移值

1 2 3 4 5 6 def GetLastBlankPosition(materialPic,x=0):     bc=getBackColors(materialPic)     for in range(15):         for in range(24):             if materialPic.getpixel((i+x,j)) not in bc:                 return i

  

解析驗證碼,利用特征嗎判斷

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 def GetVaildJpgNumber(bmp):     print 'GetVaildJpgNumber'     vaildStr="";     backColors=getBackColors(bmp)<br>  #對於一個驗證碼的4個數字分別驗證,其x範圍為n*15~(n+1)*15     for pos in range(4):<br>    #取得對應位置的首繪偏移值         offset=GetLastBlankPosition(bmp,pos*15)<br>     #對於0-9,分別判斷對應的特征是否為背景色,如果不是解析完成,是背景色則判斷下一個數字,因為3的像素基本和其他圖像共用,所以如果最後沒有找到特定的數字,就是3         for nr in range(0,10):             isthisNr=True             for pix in NumberKeyPixel[nr]:                 if pix[0]+offset>=15:                     isthisNr=False                     break                 if bmp.getpixel((pix[0]+offset+pos*15,pix[1])) in backColors :                     isthisNr=False                     break;             if isthisNr and NumberKeyPixel[nr].__len__()!=0 :                 vaildStr+=str(nr)                 break         if vaildStr.__len__()==pos:             vaildStr+='3'     print vaildStr     return vaildStr

  

 

從網路抓取驗證碼,使用的是httplib,其中我們學校名我已替代為myschool

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 def GetVaildJpg ():     print 'GetVaildJpg'     headers={         'Accept''image/png, image/svg+xml, image/*;q=0.8, */*;q=0.5',         'Referer''http://zcc.myschool.edu.cn/',         'Accept-Language''zh-Hans-CN,zh-Hans;q=0.8,en-US;q=0.5,en;q=0.3',         'User-Agent''Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',         'Accept-Encoding''gzip, deflate',         'Host''zcc.myschool.edu.cn',         'DNT''1',         'Connection''Keep-Alive',         'Cookie': sessionId       }     httpClient=httplib.HTTPConnection('zcc.myschool.edu.cn',80,timeout=300)     httpClient.request("GET",'http://zcc.myschool.edu.cn/image.jsp',None,headers)     response=httpClient.getresponse()     '''print response.getheaders()'''     stBmp=response.read()     bmp=Image.open(BytesIO(stBmp))     bmp.save('D:\PROJECT\PYTHON\catchDorm\catch.bmp')     '''bmp.show()'''     return GetVaildJpgNumber(bmp)

  

好的,現在一切OK,幾十次試驗都正確判斷。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 2013年谷歌推出android studio後,單獨支持android開發,這是基於Java語言集成開發環境IntelliJ搭建的IDE。特別在android studio1.0穩定版出來後,谷歌將其作為官方的開發工具,也推薦開發者使用android studio。15年時候谷歌宣佈停止對ec.....
  • 前端開發在最近幾年逐漸走紅,越來越多的開發者加入前端開發隊伍。但前端在大學中沒有課程體系,而且知識也在不斷更新著。大家對它的認識也各不相同。博主有過技術經理,項目經理,面試官,前端開發的經歷,參與過較多的前端開發項目,也結識了較多前端開發人員。基於這些因素我對前端有些較深刻的認識,和大家分享下。本文...
  • 一、數組和對象操作1. $.each——遍歷$.each(obj,function(param1,param2))遍曆數組時:param1為元素序號,param2為元素內容;遍歷對象時:param1為元素屬性名,param2為元素屬性值。例如:①遍曆數組:$(function () { ...
  • 使用縮寫可以幫助減少你CSS文件的大小,更加容易閱讀。css縮寫的主要規則如下: 顏色 16進位的色彩值,如果每兩位的值相同,可以縮寫一半,例如: #000000可以縮寫為#000;#336699可以縮寫為#369; 盒尺寸 通常有下麵四種書寫方法:property:value1; 表示所...
  • 儘量避免使用DOM。當需要反覆使用DOM時,先把對DOM的引用存到JavaScript本地變數里再使用。使用設置innerHTML的方法來替換document.createElement/appendChild()方 法。eval()有問題,new Fuction()構造函數也是,儘量避免使用它們。...
  • html部分: formValidator 用戶名: 密碼: 重覆密碼: 性別: 男 女 地區:...
  • 很多創業型企業,都是追求快速把產品推向市場。也因這個因素,在設計和研發過程中,往往追求快為目標,在架構選型、代碼編寫等環節往往疏忽了性能的考慮。但這種現象是屬於正常的,一個好的產品是在客戶使用下不斷重構成長起來的。 產品的長期運行中,會隨著數據的不斷龐大、操作用戶的不斷增加及網路慢等元素,會慢慢.....
  • 不廢話,直接上代碼,您也可以點這裡看瀑布流效果演示。前臺:getMyVal('category',$_GET);$xiaohuaList=Xiaohua::model()->getXiaohao($category); //打開頁面預設顯示的數據?> id;?> ">title);?> ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...