從讀寫文件看python的編碼處理

来源:http://www.cnblogs.com/gametesting/archive/2017/07/28/7243154.html
-Advertisement-
Play Games

本文的測試環境:python 2.7 註:新手學習筆記 當前環境下,直接輸入中文,顯然會報錯 Non-ASCII character '\xe4' in file F:/pythons_environment_files/filecheck.py on line 3 這時候你需要在開頭加上 # _* ...


本文的測試環境:python 2.7

註:新手學習筆記

 

當前環境下,直接輸入中文,顯然會報錯

Non-ASCII character '\xe4' in file F:/pythons_environment_files/filecheck.py on line 3

這時候你需要在開頭加上

# _*_ coding:utf-8

然後,你就可以妥妥的各種print中文了

----------------------------

現在開始讀寫文件,我們準備了utf-8編碼的文件和gb2312編碼的文件各一份

(ps:utf-8文件的生成方式,1、txt另存為可以修改編碼方式,2、使用notepad++的同學可以直接在編碼裡面修改)

utf8url = ‘C:\Users\Administrator\Desktop\UTF-8測試.txt’

file1 = open(utf8url)  #打開文件

到這裡,調試發現報錯了

IOError: [Errno 2] No such file or directory: 'C:\\Users\\Administrator\\Desktop\\UTF-8\xe6\xb5\x8b\xe8\xaf\x95.txt'

報錯提示文件找不到,但是我們的文件的確是存在的,查看錯誤信息,發現文件名的編碼不正常

處理方式:

方式1:utf8url = u ‘C:\\Users\Administrator\Desktop\\UTF-8測試.txt’

方式2: file1 = open(utrf8url.decode(‘utf-8’))

註:兩種方式從本質上是一樣的,將文件名轉成unicode字元

繼續讀取,發現一切正常

 

然後我們換編碼是gb2312的文本進行測試

 

gbkurl = u'C:\\Users\Administrator\Desktop\GBK測試.txt'  #這裡我們直接使用轉換為unicode的路徑,避免出現錯誤

file2 = open(gbkurl)

print file2.read()

列印結果

GBK�����ı�

雖然沒有報錯,但是結果顯然不是我們想要的,出現了亂碼

解決方法:

對讀取的結果進行解碼操作

print file2.read().decode('gb2312')

觀察列印結果

GBK測試文本      #結果一切正常

 

其實,寫到這裡,對於編碼解碼我依舊是蒙的

每次都是encode不行,使用decode

utf-8不行換gb2312,總會有一種可行的

 

為了編碼這種情況的發生,我進行瞭如下嘗試

代碼如下:

s1 = '張三'

s2 = u‘張三’

print s1

print s1.decode('utf-8')

print s1.decode('gb2312')

print s1.encode('utf-8')

print s1.encode('gb2312')

#-------

print s2

print s2.decode('utf-8')

print s2.decode('gb2312')

print s2.encode('utf-8')

print s2.encode('gb2312')

 

哪些可以得到我們想要的結果呢

這些是可以輸出的

print s1

print s1.decode('utf-8')

print '----------'

print s2

print s2.encode('utf-8')

print s2.encode('gb2312')

可以看到print s2.encode('gb2312')顯示亂碼,其他都正常顯示

 

我們因此得出結論

1、python環境下,支持顯示字元串和unicode字元,只是非utf-8的字元串,會顯示亂碼

2、unicode字元要轉成字元串,需要進行encode編碼,具體的編碼方式,就得看你想轉成什麼編碼格式的字元串

3、字元串想轉成unicode字元,需要進行decode解碼,使用什麼解碼方式,與字元串本身的編碼方式一致

eg:utf-8的字元串想解碼,就必須使用decode('utf-8')來執行

 

再來思考文件中顯示的亂碼,亂碼其實就是一種不支持的編碼方式編碼的字元串

你需要解碼成unicode字元進行顯示,也可以轉成utf-8的字元串進行顯示

 對s2.encode('gb2312')亂碼的修改

s2.encode('gb2312').decode('gb2312')

或者

s2.encode('gb2312').decode('gb2312').encode('utf-8')

 

再者,對於為什麼從txt文件讀取的字元串是gb2312的編碼

我個人的想法是讀取操作是把字元串-位元組流-字元串,本身並沒有改變編碼方式

 

各位看官,雖然寫的很雜亂很麻煩,但是我對encode和decode深刻理解了,你呢?


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 # 字典的每一個元素都是一個鍵值對 2 user_info = { 3 "name":"alex", 4 "age":73, 5 "gender":"M", 6 } 7 8 # 索引 9 print(user_info['name']) 10 11 #輸出所有的key為一個列表 12 print... ...
  • 在kotlin中一個變數如果可修改則申明為var,只讀則申明為val,這大家都知道,但是有個小問題不禁讓我陷入了沉思…… 這const修飾符是幹啥用的?跟其他語言比一下,const就是代表不可修改,然而val已經能表達出類似的意思了呢。 查看kotlin in action,pdf文檔裡面介紹con ...
  • import hashlib def md5(arg):#這是加密函數 md5_pwd = hashlib.md5(bytes('meac',encoding='utf-8')) md5_pwd.update(bytes(arg,encoding='utf-8')) return md5_pwd.h... ...
  • 操作系統 : CentOS7.3.1611_x64 python版本:2.7.5 sklearn版本:0.18.2 tensorflow版本 :1.2.1 線性回歸是利用數理統計中回歸分析, 來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法, 運用十分廣泛。 其表達形式為y = w'x ...
  • 分支結構:有條件的執行某語句,並非每句必走 1)if結構:1條路 2)if...else結構:2條路 3)if...else if結構:多條路 4)switch...case結構:多條路 優點:效率高、結構清晰 缺點:整數、相等 break:跳出switch 一、if結構的認識 /* * 1.if結 ...
  • 面向對象介紹(http://www.cnblogs.com/alex3714/articles/5188179.htm) 世界萬物,皆可分類 世界萬物,皆為對象 只要是對象,就肯定術語某種類 (1)特性 封裝、繼承、多態 Encapsulation 封裝 在類中對數據的賦值、內部調用對外部用戶是透明 ...
  • Struts2(MVC框架)以WebWork為核心,採用攔截器(filter)的機制來處理用戶的請求 官網下載壓縮包解壓: apps文件:Struts2的示例應用 docs文件:struts2的相關文檔 lib文件:struts2的核心庫以及第三方插件類庫 src文件:struts2框架的全包源代碼 ...
  • 最近在看C++ primer plus,感覺函數與指針這一章難點比較多,記寫筆記,加強理解. From C++ Primer Plus: Chapter 7 Function:C++ Programming Modules 1. 如何聲明函數指針? 和函數原型類似: 需要聲明指針指向函數的返回值和參 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...