Python 爬蟲入門(四)—— 驗證碼上篇(主要講述驗證碼驗證流程,不含破解驗證碼)

来源:http://www.cnblogs.com/hearzeus/archive/2016/01/29/5166299.html
-Advertisement-
Play Games

本篇主要講述驗證碼的驗證流程,包括如何驗證碼的實現、如何獲取驗證碼、識別驗證碼(這篇是人來識別,機器識別放在下篇)、發送驗證碼。同樣以一個例子來說明。目標網址 http://icp.alexa.cn/index.php(查詢功能變數名稱備案信息) 1.驗證碼的實現: 簡單的說,驗證碼就是一張圖片,圖片上有字


  本篇主要講述驗證碼的驗證流程,包括如何驗證碼的實現、如何獲取驗證碼、識別驗證碼(這篇是人來識別,機器識別放在下篇)、發送驗證碼。同樣以一個例子來說明。目標網址 http://icp.alexa.cn/index.php(查詢功能變數名稱備案信息)

  1.驗證碼的實現:

  簡單的說,驗證碼就是一張圖片,圖片上有字元串。網站是如何實現的呢?有WEB基礎的人可能會知道,每個瀏覽器基本都有cookie,作為這次回話的唯一標示。每次訪問網站,瀏覽器都會把這個cookie發送給伺服器。驗證碼就是和這個cookie綁定到一起的。如何理解呢?舉個例子,現在有網站W,有A和B兩個人,同時訪問W,W給A返回的驗證碼是X,給B返回的驗證碼是Y,這兩個驗證碼都是正確的,但是如果A輸入了B的驗證碼,肯定驗證不通過。那伺服器是怎麼區分A和B呢,就是用到的cookie。再舉個例子,有些網站你登錄一次之後,下次繼續訪問可能就自動登陸了,也是用cookie來標示唯一身份的,如果清除了cookie也就無法自動登陸了。cookie具體是什麼生成的,我們不必關心,只需要知道是一長串字元串就行了,你的和別人的都不一樣。(例子中的目標網址並不是用cookie,而是用的其他方式,所以可能會存在一些BUG)

  伺服器後臺生成驗證碼的流程就很容易理解了:首先,生成一個隨機字元串,然後和cookie綁定,然後寫到圖片上返回給你。那麼,如何生成一個圖片驗證碼呢?下麵是一個簡單的生成驗證碼源碼:

from PIL import Image
import ImageFilter,ImageDraw,ImageFont
import random

width = 80
height = 40
font = ImageFont.truetype('C:\\Windows\\Fonts\\AdobeFangsongStd-Regular.otf', 28)
image = Image.new("RGB",(width,height),(0,0,0))
draw = ImageDraw.Draw(image)
for t in range(4):
    draw.text((20*t,10),`random.randint(0,9)`,font=font,fill=(255,255,255))
image.show()

  代碼說明:

    a).PIL是python的圖片庫模塊,需要自己安裝

    b).ImageFont.truetype()是選擇字體

    c).Image.new("RGB",(width,height),(0,0,0))新建一個Image,背景色是白色((0,0,0)就代表的顏色),如果需要別的顏色,可自己查詢顏色代碼。window自帶的畫板就可以看到:

    

    d).random.randint(0,9)隨機數 範圍大於等於0,小於等於9

    e).draw.text((20*t,10),`random.randint(0,9)`,font=font,fill=(255,255,255),anchor=False) 第一個參數代表位置,帶二個代表內容,第三個代表字體,第四個代表字體顏色

    f).image.show()顯示圖片,第一詞會提示選擇預設圖片查看器。

   運行結果如下圖:

    

  2).驗證碼的獲取

    a).分析目標網站,可以看到當滑鼠點擊驗證碼那個輸入框時會顯示驗證碼,如圖:

  

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 轉自:http://blog.csdn.net/51357/article/details/1480599 近期在維護一個vs2008開發的項目(該項目是從Vs2013拷貝升級過來的),發現不同時期按時間順序來說,分別使用了DataGrid和GridView控制項, 下麵引用一篇文章來說說二者不同:
  • 本主題描述瞭如何實現一個 WCF 中間層應用程式伺服器及如何配置 XAF客戶端連接到此伺服器。 註意 本主題演示可以由解決方案嚮導自動生成的代碼。執行操作時,如果你想要在現有的 XAF 解決方案中實現的顯示的功能。如果您要創建一個新的 XAF 解決方案,請使用嚮導。 完整的樣例項目是在 http:/
  • 重構是在編寫代碼後在不更改代碼的外部行為的前提下通過更改代碼的內部結構來改進代碼的過程。 一、何時需要重構 1、代碼中存在重覆的代碼; 如果類中有重覆的代碼塊,需將其提煉出一個新的獨立方法,如果是不同類中具有相同的代碼,將其提煉成一個新類。 2、過大的類和過長的方法; 過大的類往往是類抽象不合理的結
  • 有幾種方法可以用來聲明一個驗證規則。最常用的方法是使用對應的Attribute來定義。詳見這裡。驗證模塊還允許您通過在業務類實現 IRuleSource 介面定義自定義的驗證規則的來源。 IRuleSource 介面公開兩個成員。名稱屬性應返回自定義的驗證規則源的唯一名稱。CreateRules 方
  • 一:C# 連接SQL資料庫 Data Source=myServerAddress;Initial Catalog=myDataBase;User Id=myUsername;Password=myPassword; Data Source=190.190.200.100,1433;Network
  • /// <summary> /// DataTable行轉列 /// </summary> /// <param name="dtable">需要轉換的表</param> /// <param name="head">轉換表表頭對應舊表欄位(小寫)</param> /// <returns></re
  • 註意:本章代碼是在上一章的基礎上進行添加修改,上一章鏈接《第九章 企業項目開發--分散式緩存Redis(1)》 上一章說了ShardedJedisPool的創建過程,以及redis五種數據結構的第一種String類型的常用緩存操作方法。下麵說餘下的四種: list(有序列表) set(無序集合) s
  • 一、編碼 預設情況下, python3源碼文件以UTF-8編碼,所有字元串都是unicode字元串。當然你也可以為源碼文件指定不同的編碼: 1 # -*- coding: gbk -*- 二、標識符 1、第一字元必須是 字母 或 下劃線'_' 。 2、標識符的其他的部分由字母、數字和下劃線組成。 3
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...