1.Python中的編碼格式 a.ASCII碼 ASCII碼共有127個字元,包括數字,大小寫字母,和一些符號,比如常見的字元的ASCII碼表示有:A:65,z:132,ASCII碼是用一個位元組表示的,其主要的缺點就是因為在記憶體中只占一個位元組, 所以無法被用來表示中文,只能表示一些單字元元素。針對不 ...
1.Python中的編碼格式
a.ASCII碼
ASCII碼共有127個字元,包括數字,大小寫字母,和一些符號,比如常見的字元的ASCII碼表示有:A:65,z:132,ASCII碼是用一個位元組表示的,其主要的缺點就是因為在記憶體中只占一個位元組,
所以無法被用來表示中文,只能表示一些單字元元素。針對不能表示中文的缺點,中國也提出了一種可以表示中文的編碼格式GB2312。
b.unicode編碼
為了實現將所有的字元和語言可以編入到一套字元編碼中區,Unicode編碼格式被創造,Unicode可以實現表示中文,但是其存在本質的缺點是用兩個位元組表示一個字元,造成了很大的記憶體浪費,
所以將ASCII碼表示的字元編碼轉換為Unicode編碼,只需要在前面加上一個位元組,補足8個0就可以了。Unicode編碼的好處就是統一了字元,讓不同的字元不會出現亂碼。
c.utf-8編碼
為了統一字元編碼格式,杜絕亂碼的出現,並且解決掉Unicode編碼造成的浪費資源,出現了一種可變長字元編碼,UTF-8編碼,可以根據字元的大小,自適應編成1-6個位元組,通常英文字母和數字
編成一個位元組,漢字編成3個位元組,從另一種程度講ASCII碼也是屬於UTF-8的,這就解決了一些ASCII碼編譯亂碼的出現。
d.電腦記憶體中不同編碼的應用場景
在電腦記憶體中存在的是Unicode編碼,但是寫入存儲磁碟中是以UTF-8格式寫入的,記憶體中Unicode表現的形式就是位元組,當磁碟文件中的字元需要讀到記憶體中的時候,需要使用encode轉換成字 節的形式,表示形式為帶有位元組b首碼,eg:XXX.encode('unicode')輸出:b'xxxx'。記憶體中的位元組如果要從磁碟中去讀取字元需要將記憶體中展示的Unicode編碼轉換成utf-8編碼格式,通過decode方式來實現b'xxx'decode('utf-8')輸出:XXX。
2.關於Python中的容器數據類型
a.列表
list是Python內置的數據類型,是一種有序的集合,可以隨時添加和刪除其中的元素,是一個可迭代的對象。利用代碼‘for x in list:’,輸出X的值,可以迭代出列表中的每一個元素。
list常用方法:len(list),用來計算列表的長度,list.append(xx)方法可以對列表進行末尾追加,list.pop(index)方法可以用來刪除指定元素。
b.元組
tuple類型與list都是Python內置容器類型,一般表示形式為tuple = (x,x,x,x),tuple類型一旦初始化之後便不能再進行改變,沒有類似於insert,append這樣的插入方法,因為tuple類型不可變,所以代碼相對list更為安全,一般代碼中可以使用tuple代替list的地方儘量使用tuple代替list。tuple中定義只有一個元素的元組的方法:tuple = (1,),如果沒有結尾的逗號,Python解釋器會把定義的類型當做整數處理,輸出為1。
c.字典
dict其實就是鍵對值(key - value)存儲,可以快速查找。dict類型是無序的數據類型。字典與list的區別,dict插入的是鍵對值,所以查找速度快,但是占用的存儲空間比較大,相反list是查找的速度慢,但是在記憶體中只占一小部分空間,浪費記憶體少,dict通常在Python廣泛用於高速查找。
列舉dict中的所有key和value : for key ,value in dict.items():
d.集合
set與dict類似,只不過存儲的是一組key值,因為key值是不可重覆的,所以set中的元素也是沒有重覆的,一般list去重,可以通過將list類型改為set類型,達到去重的效果。set類型是無序的,可以通過set.add()方法進行集合中插入元素,set.remove()方法進行集合中刪除元素。兩個set可以進行數學上的交集,並集,等集合操作。