從讀寫文件看python的編碼處理

-Advertisement-

本文的測試環境：python 2.7 註：新手學習筆記當前環境下，直接輸入中文，顯然會報錯 Non-ASCII character '\xe4' in file F:/pythons_environment_files/filecheck.py on line 3 這時候你需要在開頭加上 # _* ...

本文的測試環境：python 2.7

註：新手學習筆記

當前環境下，直接輸入中文，顯然會報錯

Non-ASCII character '\xe4' in file F:/pythons_environment_files/filecheck.py on line 3

這時候你需要在開頭加上

# _*_ coding:utf-8

然後，你就可以妥妥的各種print中文了

----------------------------

現在開始讀寫文件，我們準備了utf-8編碼的文件和gb2312編碼的文件各一份

(ps:utf-8文件的生成方式，1、txt另存為可以修改編碼方式，2、使用notepad++的同學可以直接在編碼裡面修改)

utf8url = ‘C:\Users\Administrator\Desktop\UTF-8測試.txt’

file1 = open(utf8url)　　#打開文件

到這裡，調試發現報錯了

IOError: [Errno 2] No such file or directory: 'C:\\Users\\Administrator\\Desktop\\UTF-8\xe6\xb5\x8b\xe8\xaf\x95.txt'

報錯提示文件找不到，但是我們的文件的確是存在的，查看錯誤信息，發現文件名的編碼不正常

處理方式：

方式1：utf8url = u ‘C:\\Users\Administrator\Desktop\\UTF-8測試.txt’

方式2： file1 = open(utrf8url.decode(‘utf-8’))

註：兩種方式從本質上是一樣的，將文件名轉成unicode字元

繼續讀取，發現一切正常

然後我們換編碼是gb2312的文本進行測試

gbkurl = u'C:\\Users\Administrator\Desktop\GBK測試.txt'　　#這裡我們直接使用轉換為unicode的路徑，避免出現錯誤

file2 = open(gbkurl)

print file2.read()

列印結果

GBK��ı�

雖然沒有報錯，但是結果顯然不是我們想要的，出現了亂碼

解決方法：

對讀取的結果進行解碼操作

print file2.read().decode('gb2312')

觀察列印結果

GBK測試文本　　　　#結果一切正常

其實，寫到這裡，對於編碼解碼我依舊是蒙的

每次都是encode不行，使用decode

utf-8不行換gb2312,總會有一種可行的

為了編碼這種情況的發生，我進行瞭如下嘗試

代碼如下：

s1 = '張三'

s2 = u‘張三’

print s1

print s1.decode('utf-8')

print s1.decode('gb2312')

print s1.encode('utf-8')

print s1.encode('gb2312')

#-------

print s2

print s2.decode('utf-8')

print s2.decode('gb2312')

print s2.encode('utf-8')

print s2.encode('gb2312')

哪些可以得到我們想要的結果呢

這些是可以輸出的

print s1

print s1.decode('utf-8')

print '----------'

print s2

print s2.encode('utf-8')

print s2.encode('gb2312')

可以看到print s2.encode('gb2312')顯示亂碼，其他都正常顯示

我們因此得出結論

1、python環境下，支持顯示字元串和unicode字元，只是非utf-8的字元串，會顯示亂碼

2、unicode字元要轉成字元串，需要進行encode編碼，具體的編碼方式，就得看你想轉成什麼編碼格式的字元串

3、字元串想轉成unicode字元，需要進行decode解碼，使用什麼解碼方式，與字元串本身的編碼方式一致

eg:utf-8的字元串想解碼，就必須使用decode('utf-8')來執行

再來思考文件中顯示的亂碼，亂碼其實就是一種不支持的編碼方式編碼的字元串

你需要解碼成unicode字元進行顯示，也可以轉成utf-8的字元串進行顯示

對s2.encode('gb2312')亂碼的修改

s2.encode('gb2312').decode('gb2312')

或者

s2.encode('gb2312').decode('gb2312').encode('utf-8')

再者，對於為什麼從txt文件讀取的字元串是gb2312的編碼

我個人的想法是讀取操作是把字元串-位元組流-字元串，本身並沒有改變編碼方式

各位看官，雖然寫的很雜亂很麻煩，但是我對encode和decode深刻理解了，你呢？

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

字典類型功能代碼

1 # 字典的每一個元素都是一個鍵值對 2 user_info = { 3 "name":"alex", 4 "age":73, 5 "gender":"M", 6 } 7 8 # 索引 9 print(user_info['name']) 10 11 #輸出所有的key為一個列表 12 print... ...
Kotlin中const修飾符詳解

在kotlin中一個變數如果可修改則申明為var，只讀則申明為val，這大家都知道，但是有個小問題不禁讓我陷入了沉思…… 這const修飾符是幹啥用的？跟其他語言比一下，const就是代表不可修改，然而val已經能表達出類似的意思了呢。查看kotlin in action，pdf文檔裡面介紹con ...
hashlib 簡單加密

import hashlib def md5(arg):#這是加密函數 md5_pwd = hashlib.md5(bytes('meac',encoding='utf-8')) md5_pwd.update(bytes(arg,encoding='utf-8')) return md5_pwd.h... ...
線性回歸學習筆記

操作系統： CentOS7.3.1611_x64 python版本：2.7.5 sklearn版本：0.18.2 tensorflow版本：1.2.1 線性回歸是利用數理統計中回歸分析, 來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法, 運用十分廣泛。其表達形式為y = w'x ...
java-分支結構（四種基本分支結構的認識）

分支結構:有條件的執行某語句，並非每句必走 1)if結構:1條路 2)if...else結構:2條路 3)if...else if結構:多條路 4)switch...case結構:多條路優點:效率高、結構清晰缺點:整數、相等 break:跳出switch 一、if結構的認識 /* * 1.if結 ...
day6面向對象

面向對象介紹(http://www.cnblogs.com/alex3714/articles/5188179.htm) 世界萬物，皆可分類世界萬物，皆為對象只要是對象，就肯定術語某種類（1）特性封裝、繼承、多態 Encapsulation 封裝在類中對數據的賦值、內部調用對外部用戶是透明 ...
Struts2安裝及簡單應用示例

Struts2（MVC框架）以WebWork為核心，採用攔截器(filter)的機制來處理用戶的請求官網下載壓縮包解壓： apps文件:Struts2的示例應用 docs文件：struts2的相關文檔 lib文件：struts2的核心庫以及第三方插件類庫 src文件：struts2框架的全包源代碼 ...
【C++】函數和指針

最近在看C++ primer plus，感覺函數與指針這一章難點比較多，記寫筆記，加強理解. From C++ Primer Plus: Chapter 7 Function:C++ Programming Modules 1. 如何聲明函數指針？和函數原型類似: 需要聲明指針指向函數的返回值和參 ...