Python encode和decode

来源:https://www.cnblogs.com/leohahah/archive/2019/01/04/10220991.html
-Advertisement-
Play Games

今天在寫一個StringIO.write(int)示例時思維那麼一發散就拐到了字元集的問題上,順手搜索一發,除了極少數以外,絕大多數中文博客都解釋的慘不忍睹,再鑒於被此問題在oracle的字元集體系中蹂躪過,因此在過往筆記的基礎上增刪了幾個示例貼出來。 Python2: 首先清楚兩個Python 2 ...


今天在寫一個StringIO.write(int)示例時思維那麼一發散就拐到了字元集的問題上,順手搜索一發,除了極少數以外,絕大多數中文博客都解釋的慘不忍睹,再鑒於被此問題在oracle的字元集體系中蹂躪過,因此在過往筆記的基礎上增刪了幾個示例貼出來。

Python2:

首先清楚兩個Python 2中的概念:str和unicode 這是python2中的兩種用於表示文本的類型,一般來說你直接打出的字元都屬於前者,加了u首碼的字元則屬於後者。

  str is text representation in bytes, unicode is text representation in characters.

此觀點來自stackoverflow,是得票最多的一個回答,也是我認為最好的一個,但是從我個人的角度來看這個表述依然不足,最適合的表述應當是:

  str is text representation in bytes, unicode is text representation in unicode characters(or unicode bytes).

貌似沒多大區別......可能會被人打,但我的意思是python2里的unicode是字元和編碼綁定的,只要是unicode類型那麼他的編碼和字元都已經固定了,但是str類型卻只有編碼,只有最初打出它的人才知道他的字元是什麼(或者說才能通過適當的字元集解碼為人眼可懂的字元)。

Python2里的str是十六進位表示的二進位編碼,unicode是一個字元:
通俗點來說就是Python2里的str類型是一堆二進位編碼,如果不知道是什麼字元集那麼你除了一堆十六進位
數什麼都看不出來(當然平時你使用的工具都是能看到的,因為工具已經做了轉碼),通過decode可以將其按固定的字元集解碼,生成unicode字元。
例如下例(python2環境下的windows cmd視窗):
>>> a='你好'
>>> a.decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc4 in position 0: invalid continuation byte
錯誤的原因是這裡的“你好”字元是cp936編碼(相當於gbk),utf-8屬於非ANSI體系的編碼,“你好”的gbk二進位碼不符合unicode體系的編碼規則因此報錯。
>>> print a.decode('gbk'),type(a.decode('gbk'))
你好 <type 'unicode'>
這樣就可以啦,既然a是gbk編碼的str那麼按gbk進行decode解碼,自然能得到unicode的你好字元。
decode: str to unicode,decode的輸入必須是str類型,輸出一定是unicode類型
str.decode(encoding='UTF-8',errors='strict')
​
encode: unicode to str,encode的輸入必須是unicode類型,輸出一定是str類型
unicode_char.encode(encoding='gbk',errors='strict')

Python3:

在Python3中str調用decode()方法會遇到: AttributeError: 'str' object has no attribute 'decode' .

why?

這是因為python3中表示文本的只有一種類型了,那就是str,你以為這是python2里的那個str嗎?No! 這個str是python2中的unicode類型......

那麼原來的str哪裡去了?被命名為bytes類型了,decode方法也隨之給了bytes類型,encode給了str類型。

這樣做的好處是:

在Python2中str和unicode都有decode,encode兩種方法,但是字元集參數不設置正確的話,函數經常報錯,文本能否正確流通取決於大家是否清楚輸入編碼的字元集,這對於全球化的網站來說是個巨坑,而在Python3中無論你輸入什麼字元,統一都是str類型的(也就是python2里的unicode類型),通過bytes和str類型的分離將decode,encode這兩種方法分離,encode函數不會出錯,因為編碼與字元集是綁定的,你可以隨意將unicode字元轉化為任意ANSI體系字元集的bytes類型,此時在已知ANSI字元集的情況下,你對bytes類型的decode轉碼一定不會出錯。通過這種方式就避免了python2中輸入str類型帶來的編碼混亂問題。

[root@python ~]# python3
Python 3.6.5 (default, Apr  9 2018, 17:15:34) 
[GCC 4.4.7 20120313 (Red Hat 4.4.7-4)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> a='你好'
>>> type(a)
<class 'str'>
>>> a.encode('gbk')
b'\xc4\xe3\xba\xc3'
>>> type(a.encode('gbk'))
<class 'bytes'>
通過encode方式我們可以把unicode字元轉為任意字元集的bytes類型,這種bytes類型可以通過decode()來重新轉為unicode。

使用相似的觀點來表述Python3中的bytes和str的區別就是:

 bytes is text representation in bytes only if you know the charset, str is text representation in unicode characters(or unicode bytes).


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.學習爬蟲,為什麼必須會正則表達式? 我們爬取一些網頁具體內容時,只需要這個網頁某個標簽的一部分內容就足夠,或者是這個標簽的某個屬性的值時,用普通的 xpath 或者css.selector是不能完成的,此時我們就需用到正則表達式去匹配獲取。2.正則表達式官方簡介? 正則表達式,又稱規則表達式。( ...
  • 前言 函數指針是什麼?如何使用函數指針?函數指針到底有什麼大用?本文將一一介紹。 如何理解函數指針 如果有int *類型變數,它存儲的是int類型變數的地址;那麼對於函數指針來說,它存儲的就是函數的地址。函數也是有地址的,函數實際上由載入記憶體的一些指令組成,而指向函數的指針存儲了函數指令的起始地址。 ...
  • 《從零開始PYTHON3》學習資源包下載 課程連載已經完全結束。 經過整理校對,這裡把在課程中出現過的源碼和練習答案示例源碼全部打包提供下載: 提取碼:f3r6 壓縮包解壓密碼:https://formoon.github.io 資源包中還包含了64位Windows版本的Python3安裝包,是驗證 ...
  • 周末小實踐,vue+樹莓派+一言API 一直有個想法,讓樹莓派做後端,實現一個有趣的網路服務。可是,苦於不會前端,遲遲無法動手。最近由於工作任務需要研究了一下前端。 問過前端大佬們,個個都說你得用vue.js,當前最流行、最熱門的前端框架,就用它!聽我的,沒錯! 在大佬的指導下,花了半天時間領略到了 ...
  • 1.簡介 HBase是一個基於HDFS的、分散式的、面向列的非關係型資料庫。 HBase的特點 1.海量數據存儲,HBase表中的數據能夠容納上百億行*上百萬列。 2.面向列的存儲,數據在表中是按照列進行存儲的,能夠動態的增加列並對列進行各種操作。 3.準實時查詢,HBase在海量的數據量下能夠接近 ...
  • 題意 "題目鏈接" Sol 一道咕咕咕了好長時間的題 題解可以看 "這裡" cpp include define LL long long using namespace std; const int MAXN = 1e7 + 5e6 + 10, mod = 1e9 + 7, mod2 = 1e9 ...
  • 方法引用(Method reference)和invokedynamic指令詳細分析 是jvm指令集裡面最複雜的一條。本文將詳細分析 指令是如何實現方法引用(Method reference)的。 具體言之,有這樣一個方法引用: 使用 查看對應位元組碼: 使用 指令生成encode對象,然後存入 局部 ...
  • 一般的的靜態HTML頁面可以使用requests等庫直接抓取,但還有一部分比較複雜的動態頁面,這些頁面的DOM是動態生成的,有些還需要用戶與其點擊互動,這些頁面只能使用真實的瀏覽器引擎動態解析,Selenium和Chrome Headless可以很好的達到這種目的。 Headless Chrome ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...