Python入門必學：字元串和編碼正確的使用方法

字元編碼，我們已經講過了，字元串也是一種數據類型，但是，字元串比較特殊的是還有一個編碼問題。因為電腦只能處理數字，如果要處理文本，就必須先把文本轉換為數字才能處理。最早的電腦在設計時採用8個比特（bit）作為一個位元組（byte），所以，一個位元組能表示的最大的整數就是255（二進位1111111 ...

字元編碼，我們已經講過了，字元串也是一種數據類型，但是，字元串比較特殊的是還有一個編碼問題。

因為電腦只能處理數字，如果要處理文本，就必須先把文本轉換為數字才能處理。最早的電腦在設計時採用8個比特（bit）作為一個位元組（byte），所以，一個位元組能表示的最大的整數就是255（二進位11111111=十進位255），如果你覺得理解的還不夠透徹可以去小編的Python技術球球qun：278136312 ，qun裡面有我總結的比較詳細的Python全面的視頻教程，需要的自己去公告裡面下載學，希望對你有幫助，再來看如果要表示更大的整數，就必須用更多的位元組。比如兩個位元組可以表示的最大整數是65535，4個位元組可以表示的最大整數是4294967295。

由於電腦是美國人發明的，因此，最早只有127個字元被編碼到電腦里，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，比如大寫字母A的編碼是65，小寫字母z的編碼是122。

但是要處理中文顯然一個位元組是不夠的，至少需要兩個位元組，而且還不能和ASCII編碼衝突，所以，中國制定了GB2312編碼，用來把中文編進去。

你可以想得到的是，全世界有上百種語言，日本把日文編到Shift_JIS里，南韓把韓文編到Euc-kr里，各國有各國的標準，就會不可避免地出現衝突，結果就是，在多語言混合的文本中，顯示出來會有亂碼。

char-encoding-problem

因此，Unicode應運而生。Unicode把所有語言都統一到一套編碼里，這樣就不會再有亂碼問題了。

Unicode標準也在不斷發展，但最常用的是用兩個位元組表示一個字元（如果要用到非常偏僻的字元，就需要4個位元組）。現代操作系統和大多數編程語言都直接支持Unicode。

現在，捋一捋ASCII編碼和Unicode編碼的區別：ASCII編碼是1個位元組，而Unicode編碼通常是2個位元組。

字母A用ASCII編碼是十進位的65，二進位的01000001；

字元0用ASCII編碼是十進位的48，二進位的00110000，註意字元'0'和整數0是不同的；

漢字中已經超出了ASCII編碼的範圍，用Unicode編碼是十進位的20013，二進位的01001110 00101101。

你可以猜測，如果把ASCII編碼的A用Unicode編碼，只需要在前面補0就可以，因此，A的Unicode編碼是00000000 01000001。

新的問題又出現了：如果統一成Unicode編碼，亂碼問題從此消失了。但是，如果你寫的文本基本上全部是英文的話，用Unicode編碼比ASCII編碼需要多一倍的存儲空間，在存儲和傳輸上就十分不划算。

所以，本著節約的精神，又出現了把Unicode編碼轉化為“可變長編碼”的UTF-8編碼。UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組，常用的英文字母被編碼成1個位元組，漢字通常是3個位元組，只有很生僻的字元才會被編碼成4-6個位元組。如果你要傳輸的文本包含大量英文字元，用UTF-8編碼就能節省空間：

字元	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

從上面的表格還可以發現，UTF-8編碼有一個額外的好處，就是ASCII編碼實際上可以被看成是UTF-8編碼的一部分，所以，大量只支持ASCII編碼的歷史遺留軟體可以在UTF-8編碼下繼續工作。

搞清楚了ASCII、Unicode和UTF-8的關係，我們就可以總結一下現在電腦系統通用的字元編碼工作方式：

在電腦記憶體中，統一使用Unicode編碼，當需要保存到硬碟或者需要傳輸的時候，就轉換為UTF-8編碼。

用記事本編輯的時候，從文件讀取的UTF-8字元被轉換為Unicode字元到記憶體里，編輯完成後，保存的時候再把Unicode轉換為UTF-8保存到文件：

rw-file-utf-8

瀏覽網頁的時候，伺服器會把動態生成的Unicode內容轉換為UTF-8再傳輸到瀏覽器：

web-utf-8

所以你看到很多網頁的源碼上會有類似<meta charset="UTF-8" />的信息，表示該網頁正是用的UTF-8編碼。

Python的字元串

搞清楚了令人頭疼的字元編碼問題後，我們再來研究Python的字元串。

在最新的Python 3版本中，字元串是以Unicode編碼的，也就是說，Python的字元串支持多語言，例如：

>>> print('包含中文的str')
包含中文的str

對於單個字元的編碼，Python提供了ord()函數獲取字元的整數表示，chr()函數把編碼轉換為對應的字元：

>>> ord('A')
65
>>> ord('中')
20013
>>> chr(66)
'B'
>>> chr(25991)
'文'

如果知道字元的整數編碼，還可以用十六進位這麼寫str：

>>> '\u4e2d\u6587'
'中文'

兩種寫法完全是等價的。

由於Python的字元串類型是str，在記憶體中以Unicode表示，一個字元對應若幹個位元組。如果要在網路上傳輸，或者保存到磁碟上，就需要把str變為以位元組為單位的bytes。

Python對bytes類型的數據用帶b首碼的單引號或雙引號表示：

x = b'ABC'

要註意區分'ABC'和b'ABC'，前者是str，後者雖然內容顯示得和前者一樣，但bytes的每個字元都只占用一個位元組。

以Unicode表示的str通過encode()方法可以編碼為指定的bytes，例如：

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

純英文的str可以用ASCII編碼為bytes，內容是一樣的，含有中文的str可以用UTF-8編碼為bytes。含有中文的str無法用ASCII編碼，因為中文編碼的範圍超過了ASCII編碼的範圍，Python會報錯。

在bytes中，無法顯示為ASCII字元的位元組，用\x##顯示。

反過來，如果我們從網路或磁碟上讀取了位元組流，那麼讀到的數據就是bytes。要把bytes變為str，就需要用decode()方法：

>>> b'ABC'.decode('ascii')
'ABC'
>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'

如果bytes中包含無法解碼的位元組，decode()方法會報錯：

>>> b'\xe4\xb8\xad\xff'.decode('utf-8')
Traceback (most recent call last):
  ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte

如果bytes中只有一小部分無效的位元組，可以傳入errors='ignore'忽略錯誤的位元組：

>>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore')
'中'

要計算str包含多少個字元，可以用len()函數：

>>> len('ABC')
3
>>> len('中文')
2