前面介紹了對稱加密演算法,本文將介紹密碼學中另一類重要應用:消息摘要(Digest),什麼是消息摘要?簡單的定義是:對一份數據,進行一個單向的Hash函數,生成一個固定長度的Hash值,這個值就是這份數據的摘要,也稱為指紋。 ...
前面介紹了對稱加密演算法,本文將介紹密碼學中另一類重要應用:消息摘要(Digest),什麼是消息摘要?簡單的定義是:對一份數據,進行一個單向的Hash函數,生成一個固定長度的Hash值,這個值就是這份數據的摘要,也稱為指紋。
常見的摘要演算法有:
- MD5
- SHA1
- SHA256
- 其它
特點如下:
-
無論輸入的消息有多長,計算出來的消息摘要的長度總是固定的。例如應用MD5演算法摘要的消息有128個比特位,一般認為,摘要的最終輸出越長,該摘要演算法就越安全。變長輸入,定長輸出。
-
一般地,只要輸入的消息不同,對其進行摘要以後產生的摘要消息也必不相同;但相同的輸入必會產生相同的輸出。
-
消息摘要函數是單向函數,即只能進行正向的信息摘要,而無法從摘要中恢復出任何的消息,甚至根本就找不到任何與原信息相關的信息。
-
優秀的摘要演算法,沒有人能從中找到“碰撞”,即無法找到兩條不同的消息,使它們的摘要相同。
在python3中,關於hash加密演算法都放在hashlib這個標準庫中,如SHA1、SHA224、SHA256、SHA384、SHA512和MD5演算法等。md5演算法以前單列,而在python3的標準庫中,也放在hashlib庫中。在不同的平臺上hashlib的能力不同,使用以下代碼進行檢測。
import hashlib def capacity(): print(hashlib.algorithms_guaranteed) print(hashlib.algorithms_available) capacity()
MD5即Message-Digest Algorithm 5(信息-摘要演算法5),用於確保信息傳輸完整一致。是電腦廣泛使用的雜湊演算法之一(又稱摘要演算法、哈希演算法)。
MD5演算法具有以下特點:
-
壓縮性:任意長度的數據,算出的MD5值長度都是固定的。
-
容易計算:從原數據計算出MD5值很容易。
-
抗修改性:對原數據進行任何改動,哪怕只修改1個位元組,所得到的MD5值都有很大區別。
-
強抗碰撞:已知原數據和其MD5值,想找到一個具有相同MD5值的數據(即偽造數據)是非常困難的。
MD5演算法雖然應用廣泛,但是它也有重大缺陷。
-
2010年CMU軟體工程機構認為MD5摘要演算法已經在密碼學上被破譯並且不適合使用。
-
2012年惡意軟體利用了MD5的漏洞並偽造了微軟的數字簽名。
雖然md5存在重大問題,但在普通環境下,md5並非完全不可用,從時間、成本以及要處理對象綜合考慮,仍然可以用md5做一些基本的工作。下麵演示md5演算法庫的使用演示。
import hashlib def md5_demo(inputstr,codingname): return hashlib.md5(inputstr.encode(encoding=codingname)).hexdigest() codingnamelist = ['UTF-8','GBK','GB2312','GB18030'] data = ['歡迎關註陝西華路','stay hungry stay foolish'] for item in data: print(item) for cdn in codingnamelist: print(md5_demo(item,cdn)) print()
這段代碼演示了中文與英文字元串,在使用不同編碼方式下生成的不同的md5值。對於中文而言,不同的編碼會導致不同的輸出。
歡迎關註陝西華路
5da5f58a3f902c739c3860b28afed47c
de60ee00e3144efbd37c38f1f6579fa8
de60ee00e3144efbd37c38f1f6579fa8
de60ee00e3144efbd37c38f1f6579fa8
可以看出,使用UTF-8編碼會與其它編碼產生不同的MD5值。而對於英文來說,則沒有區別。
stay hungry stay foolish
d0653ce06bdc9fad39d9ac2312eb8b34
d0653ce06bdc9fad39d9ac2312eb8b34
d0653ce06bdc9fad39d9ac2312eb8b34
d0653ce06bdc9fad39d9ac2312eb8b34
md5演算法除了對字元串外,對於任何位元組流對象都可以使用,尤其對文件的處理更是極為有用,例如:
-
下載文件時進行確認。從互聯網下載文件時,為了確保文件下載時沒有出現錯誤,或者被篡改(植入病毒),可以對下載後的文件進行md5的計算,並且與提供者發佈的md5值進行比較,如果相同則可以放心使用。
-
對目錄下的不同名稱的文件去重。相對於根據文件名稱、大小與時間這些非常容易變化的不可靠信息來說,對文件進行md5計算去重是非常準確的。相同的md5可以確定(極小概率不正確)是相同的文件。假設一個圖片文件,被多次複製更名成為不同的文件名,經過md5計算完全可以判斷為同一個文件。
對文件的md5計算也非常簡單,以下代碼簡單的演示了主要代碼片斷。
@property def md5(self) -> str: """ 對文件做MD5操作,並且返回對應的MD5值 Returns: str: md5 """ with self._filename.open('rb') as fr: return hashlib.md5(fr.read()).hexdigest()
使用預設的方式對所有文件進行相同的md5計算,就不必顧及編碼格式了。