ASCII碼:只有英文和拉丁字元,一個字元占一個位元組,8位 gb2312:只有6700個中文 1980年 gbk10:存了2萬多個中文 1995年 gb18030:27000中文 2000年 utf-32:一個字元占4個位元組 utf-16:一個字元占2個位元組或2個位元組以上 utf-8:英文用ASCI ...
ASCII碼:只有英文和拉丁字元,一個字元占一個位元組,8位
gb2312:只有6700個中文 1980年
gbk10:存了2萬多個中文 1995年
gb18030:27000中文 2000年
utf-32:一個字元占4個位元組
utf-16:一個字元占2個位元組或2個位元組以上
utf-8:英文用ASCII碼存,一個中文占3個位元組
gbk到unicode稱為編碼decode() 會把byte類型轉成字元串
unicode到gbk稱為解碼encode() 會把數據轉換成byte類型
打開文件
f = open(文件位置,模式)
'r' 讀模式:只能讀不能寫。
'w' 寫模式:只能寫不能讀,且會將原先內容清除
'a' 追加模式:只能寫不能讀,不會將原先內容清除
f.close() 關閉文件,操作完文件一點要關閉文件
f.write() 參數為內容,將內容寫入文件
f.read() 預設讀取全文,參數為讀取幾個字元
f.redline() 預設讀取第一行,游標會移動到第一行最後,所以再用readline()會讀取第二行
f.readlines() 預設讀取全文,且返回一個列表
for i in f:
print(f) for內部將f對象做成一個迭代器,在記憶體中用一行去一行
f.tell() 查看游標位置,一個中文3個字元,一個英文一個字元
f.seek() 調整游標位置,參數為位置。