# 字元編碼的介紹 - 前提知識瞭解 - 字元編輯的介紹 - 字元編輯的發展 - UTF-8的由來 - 字元編碼的應用 - 編碼和解碼 ## 前提知識瞭解 ### 三大核心硬體 ```python 所有軟體都是運行硬體之上的,與運行軟體相關的三大核心硬體為cpu、記憶體、硬碟,我們需要明確三點 #1、 ...
字元編碼的介紹
- 前提知識瞭解
- 字元編輯的介紹
- 字元編輯的發展
- UTF-8的由來
- 字元編碼的應用
- 編碼和解碼
前提知識瞭解
三大核心硬體
所有軟體都是運行硬體之上的,與運行軟體相關的三大核心硬體為cpu、記憶體、硬碟,我們需要明確三點
#1、軟體運行前,軟體的代碼及其相關數據都是存放於硬碟中的
#2、任何軟體的啟動都是將數據從硬碟中讀入記憶體,然後cpu從記憶體中取出指令並執行
#3、軟體運行過程中產生的數據最先都是存放於記憶體中的,若想永久保存軟體產生的數據,則需要將數據由記憶體寫入硬碟
文本編輯器讀取文件內容的流程
#階段1、啟動一個文件編輯器(文本編輯器如nodepad++,pycharm,word)
#階段2、文件編輯器會將文件內容從硬碟讀入記憶體
#階段3、文本編輯器會將剛剛讀入記憶體中的內容顯示到屏幕上
文本編輯器將文件內容讀入記憶體後,是為了顯示或者編輯,根本不去理會python的語法,而python解釋器將文件內容讀入記憶體後,可不是為了給你瞅一眼python代碼寫的啥,而是為了執行python代碼、會識別python語法)
字元串編碼的介紹
字元編碼它的前提
# 字元編碼它的前提:它只跟字元類型和文本類型相關,跟視頻文件、音頻文件、圖片文件等無關
電腦內部只能夠認識二進位01,電腦之所以能夠認識各種各樣的字元,那是因為電腦的內部維護著一張字元編碼表
字元編碼
字元編碼(Character Encoding):字元編碼是指一種映射規則,根據這個映射規則可以將某個字元映射成其他形式的數據以便在電腦中存儲和傳輸。例如ASCII字元編碼規定使用單位元組中低位的7個比特去編碼所有的字元,在這個編碼規則下字母A的編號是65(ASCII碼),用單位元組表示就是0x41,因此寫入存儲設備的時候就是二進位的 01000001。每種字元集都有自己的字元編碼規則,常用的字元集編碼規則還有 UTF-8編碼、GBK編碼、Big5編碼等。
字元編碼的發展
一家獨大
上個世紀60年代,美國制定了一套字元編碼規則,對英語字元與二進位位之間的關係做了統一規定,這編碼規則被稱為ASCII編碼,一直沿用至今。
ASCII編碼一共規定了128個字元的編碼規則,這128個字元形成的集合就叫做ASCII字元集。在ASCII編碼中,每個字元占用一個位元組的後面7位,最前面的1位統一規定為0。在ASCII編碼中,0~31 是控制字元如換行回車刪除等,32~126 是可列印字元,可以通過鍵盤輸入並且能夠顯示出來。(下圖是ASCII字元集中字元和碼值的對應關係)
五代十國
英語用128個符號編碼就夠了,但是用來表示其他語言,128個符號是不夠的。所以當ASCII碼到歐洲的時候,一些歐洲國家就決定對ASCII編碼進行適當的“改造”:利用位元組中閑置的最高位編入新的符號。比如,法語中的é的編碼為130(二進位10000010)。這樣一來,這些歐洲國家使用的編碼體系,可以表示最多256個符號。這個編碼統稱為EASCII(Extended ASCII)。
但是歐洲的語言體系有個特點:小國家特別多,每個國家可能都有自己的語言體系,語言環境十分複雜。因此即使EASCII可以表示256個字元,也不能統一歐洲的語言環境。
為瞭解決上面這個問題,人們想出了一個折中的方案:在EASCII中表示的256個字元中,前128字元和ASCII編碼表示的字元完全一樣,後128個字元每個國家或地區都有自己的編碼標準。比如,130在法語編碼中代表了é,在希伯來語編碼中卻代表了字母Gimel (ג),在俄語編碼中又會代表另一個符號。但是不管怎樣,所有這些編碼方式中,0—127表示的符號是一樣的,不一樣的只是128—255的這一段。
根據這個規則,就形成了很多子標準:ISO-8859-1、ISO-8859-2、ISO-8859-3、……、ISO-8859-16。這些子標準適用於歐洲不同的國家地區。
大一統
ASCII碼字元集,總共才能容納256個字元,對於全世界各國語言來說,很難全部包含在內,所有後來就出現了Unicode字元集。
Unicode字元集是一個很大的字元集合,現在的規模可以容納100多萬個符號。每個符號的編碼都不一樣,比如,U+0639表示阿拉伯字母Ain,U+0041表示英語的大寫字母A,U+4E25表示漢字“嚴”。
需要註意的是,Unicode只是一個字元集,它只規定了符號的二進位代碼,卻沒有規定這個二進位代碼應該如何編碼如何存儲。這就造成了兩個問題:
第一個問題是,如何才能區別Unicode和ASCII?電腦怎麼知道三個位元組表示一個符號,而不是分別表示三個符號呢?
第二個問題是,我們已經知道,英文字母只用一個位元組表示就夠了,如果unicode統一規定,每個符號用三個或四個位元組表示,那麼每個英文字母前都必然有二到三個位元組是0,這對於存儲來說是極大的浪費,文本文件的大小會因此大出二三倍,這是無法接受的。
為瞭解決Unicode字元集存在的問題,就出現了UTF(Unicode Transformation Formats)系列的編碼規則。UTF編碼規則具體規定了Unicode字元集中的字元是如何編碼的。
總結:Unicode是一個很大的字元集,這個字元集只規定了這個字元集中每個字元對應的碼值是多少,但是這個字元集並沒有規定具體的編碼規則,具體的編碼規則有UTF系列的編碼規則實現。
文本編輯器輸入任何字元都是最新存在於記憶體中,是unicode編碼的,存放於硬碟中,則可以轉換成任意其他編碼,只要該編碼可以支持相應的字元
# 英文字元可以被ASCII識別
英文字元--->unciode格式的數字--->ASCII格式的數字
# 中文字元、英文字元可以被GBK識別
中文字元、英文字元--->unicode格式的數字--->gbk格式的數字
# 日文字元、英文字元可以被shift-JIS識別
日文字元、英文字元--->unicode格式的數字--->shift-JIS格式的數字
UTF-8的由來
UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼規則,又稱萬國碼。由Ken Thompson於1992年創建。現在已經標準化為RFC 3629。UTF-8用1到4個位元組編碼Unicode字元。用在網頁上可以統一頁面顯示中文簡體繁體及其它語言(如英文,日文,韓文)
UTF-8就是在互聯網上使用最廣的一種Unicode的實現方式。其他實現方式還包括UTF-16和UTF-32,不過在互聯網上基本不用。重覆一遍,這裡的關係是:UTF-8編碼是Unicode的實現方式之一。
UTF-8最大的一個特點,就是它是一種變長的編碼方式。它可以使用1~4個位元組表示一個符號,根據不同的符號而變化位元組長度(UTF-8編碼可以容納2^21個字元,總共200多萬個字元)。
再次強調一個概念:就是Unicode是一個字元集,這個字元集世界上所有的字元定義了一個唯一編碼。其僅僅規定了每個符號的二進位代碼,沒有制定細化的存儲規則。UTF-8、UTF-16、UTF-32才是Unicode的存儲格式定義。
字元編碼的應用
1. 如何解決亂碼問題?
你在寫文件的時候使用的是什麼編碼,那麼你打開的時候就使用對應編碼解碼就行
2. Python解釋器版本不同代碼的編碼問題
"""
在python2中使用的編碼表不是utf-8,而是ASCII碼表
# coding:utf-8
"""它使用的是ASCII碼表"""
# 在Python2 中如何定義中文字元
s = u'你好'
print s
"""
編碼和解碼
由字元轉換成記憶體中的unicode,以及由unicode轉換成其他編碼的過程,都稱為編碼encode
編碼
由記憶體中的unicode轉換成字元,以及由其他編碼轉換成unicode的過程,都稱為解碼decode
解碼
把電腦能夠讀懂的數字轉化為人類能夠讀懂的字元
# 編碼
# res = '趁年輕,學技能,養活自己'
res = '趁年輕'
# print(res.encode('utf-8')) # b'\xe8\xb6\x81\xe5\xb9\xb4\xe8\xbd\xbb' bytes
# b'\xe8\xb6\x81\xe5\xb9\xb4\xe8\xbd\xbb'
# 解碼
res1 = res.encode('utf-8')
print(res1.decode('utf-8')) # 趁年輕
"""如果遇到解碼的時候,你不指定使用什麼編碼進行解碼,你就試:utf-8 gbk"""
# 擴展
res2 = 'hello world'
print(res2.encode('utf-8'))
# print(b'hello world')