概述 在使用Python或者其他的編程語言,都會多多少少遇到編碼錯誤,處理起來非常痛苦。在Stack Overflow和其他的編程問答網站上,UnicodeDecodeError和UnicodeEncodeError也經常被提及。本篇教程希望能幫你認識Python編碼,並能夠從容的處理編碼問題。 這 ...
概述
在使用Python或者其他的編程語言,都會多多少少遇到編碼錯誤,處理起來非常痛苦。在Stack Overflow和其他的編程問答網站上,UnicodeDecodeError和UnicodeEncodeError也經常被提及。本篇教程希望能幫你認識Python編碼,並能夠從容的處理編碼問題。
這裡也要註意:不管你是為了Python就業還是興趣愛好,記住:項目開發經驗永遠是核心,如果你沒有2020最新python入門到高級實戰視頻教程,可以去小編的Python交流.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,裡面很多新python教程項目,還可以跟老司機交流討教!
本教程提到的編碼知識並不限定在Python,其他語言也大同小異,但我們依然會以Python為主,來演示和講解編碼知識。
通過該教程,你將學習到如下的知識:
獲取有關字元編碼和數字系統的概念
理解編碼如何使用Python的str和bytes
通過int函數瞭解Python對數字系統的支持
熟悉Python字元編碼和數字系統相關的內置函數
什麼是字元編碼
現在的編碼規則已經有好多了,最簡單、最基本是的ASCII編碼,只要是你學過電腦相關的課程,你就應該多少瞭解一點ASCII編碼,他是最小也是最適合瞭解字元編碼原理的編碼規則。具體如下:
小寫英文字元:a-z
大寫英文字元:A-Z
符號: 比如 $和!
空白符:回車、換行、空格等
一些不可列印的字元: 比如\b等
那麼,字元編碼的定義到底是什麼了?它是一種將字元(如字母,標點符號,符號,空格和控制字元)轉換為整數並最終轉換為bit進行存儲的方法。 每個字元都可以編碼為唯一的bit序列。 如果你對bit的概念不瞭解,請不要擔心,我們後面會介紹。
ASCII碼的字元被分為如下幾組:
ASCII表一共包括128個字元,如果你想瞭解整個ASCII表,這裡有
Python string模塊
string模塊是python里處理字元串很方便的模塊,它包括了整個ASCII字元,讓我們來看看部分string模塊源碼:
1234567891011
# From lib/python3.7/string.pywhitespace = ' \t\n\r\v\f'ascii_lowercase = 'abcdefghijklmnopqrstuvwxyz'ascii_uppercase = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'ascii_letters = ascii_lowercase + ascii_uppercasedigits = '0123456789'hexdigits = digits + 'abcdef' + 'ABCDEF'octdigits = '01234567'punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~"""printable = digits + ascii_letters + punctuation + whitespace
你可以在Python中這樣使用string模塊:
12345
>>> import string>>> s = "What's wrong with ASCII?!?!?">>> s.rstrip(string.punctuation)'What's wrong with ASCII'
什麼是bit
學過電腦相關課程的同學,應該都知道,bit是電腦內部存儲單位,只有0和1兩個狀態(二進位),我們上面所說的ASCII表,都是一個10進位的數字表示一個字元,而這個10進位數字,最終會轉換成0和1,存儲在電腦內部。例如(第一列是10進位數字,第二列是二進位,第三列是電腦內部存儲結果):
這是一種在Python中將ASCII字元串表示為位序列的方便方法。 ASCII字元串中的每個字元都被偽編碼為8位,8位序列之間有空格,每個字元代表一個字元:
12345678910111213141516
>>> def make_bitseq(s: str) -> str:... if not s.isascii():... raise ValueError("ASCII only allowed")... return " ".join(f"{ord(i):08b}" for i in s)>>> make_bitseq("bits")'01100010 01101001 01110100 01110011'>>> make_bitseq("CAPS")'01000011 01000001 01010000 01010011'>>> make_bitseq("$25.43")'00100100 00110010 00110101 00101110 00110100 00110011'>>> make_bitseq("~5")'01111110 00110101'
我們也可以是用python的f-string 來格式化,比如f”{ord(i):08b}”:
冒號的左側是ord(i),它是實際的對象,其值將被格式化並插入到輸出中。 使用ord()為單個str字元提供了base-10代碼點。
冒號的右側是格式說明符。 08表示寬度為8,0填充,b用作在基數2(二進位)中輸出結果數的符號。
ASCII編碼不夠用了
ASCII採用的是8bit來存儲字元(只使用7位,剩下的1位二進位為0),所以,ASCII最多存儲128個字元,這有個簡單的公式,計算存儲字元的bit數量與存儲字元總數的關係:2的n次方,n表示bit數量。例如:
1bit存儲2個字元
8bit存儲256個字元
64bit存儲2的64次方 == 18,446,744,073,709,551,616
我們可以寫個簡單的代碼,來計算一下,指定字元數量,至少需要多少bit來存儲:
1234567
>>> from math import ceil, log>>> def n_bits_required(nvalues: int) -> int:... return ceil(log(nvalues) / log(2))>>> n_bits_required(256)8
數字系統
在上面的ASCII討論中,您看到每個字元映射到0到127範圍內的整數。但在CPython中還有其他的數字系統,通過其他方式是表示數字。除了十進位外,python還支持以下幾個方式:
Binary: 2進位
Octal: 8進位
Hexadecimal (hex): 16進位
你可能要問,為什麼有了十進位,還要支持這麼多其他進位的數字了?這個取決你的業務場景和操作系統,在Python里,把str轉換成int,預設是10進位的。
12345678910
>>> int('11')11>>> int('11', base=10) # 10 is already default11>>> int('11', base=2) # Binary3>>> int('11', base=8) # Octal9>>> int('11', base=16) # Hex17
你可以在賦值時,直接告訴解釋器數字的類型,不同進位標表示方法如下:
類型 首碼 示例
n/a
n/a
11
二進位
0b 或者 0B
0b11
八進位
0o 或者 0O
0o11
十六進位
0x 或者 0X
0x11
12345678
>>> 1111>>> 0b11 # 二進位3>>> 0o11 # 八進位9>>> 0x11 # 16進位17
深入Unicode
正如您所看到的,ASCII的問題在於它不是一個足夠大的字元集來容納世界上的語言,方言,符號和字形。 (這對於英語來說甚至都不夠大。)Unicode從根本上起到與ASCII相同的作用,但是Unicode擁有更大的存儲空間,具有1,114,112個可能的字元,能夠完全包含世界上所有的語言。事實上,ASCII是Unicode的完美子集。 Unicode表中的前128個字元與您合理期望的ASCII字元完全對應。
Unicode本身不是編碼,但是有很多遵循Unicode編碼規範編碼,後面講到的UTF-8就是其中一個。
Unicode vs UTF-8
Unicode是一種抽象編碼標準,而不是編碼。這就是UTF-8和其他編碼方案發揮作用的地方。 Unicode標準(字元到代碼點的映射)從其單個字元集定義了幾種不同的編碼。UTF-8及其較少使用的表兄弟UTF-16和UTF-32是用於將Unicode字元表示為每個字元一個或多個位元組的二進位數據的編碼格式。我們稍後將討論UTF-16和UTF-32,但到目前為止,UTF-8占據了最大份額。
Python 3里的編碼與解碼
Python 3的str類型用於表示人類可讀的文本,可以包含任何Unicode字元。
相反,位元組類型表示二進位數據或原始位元組序列,它們本質上沒有附加編碼。
編碼和解碼是從一個到另一個的過程:
decode 和 encode 函數,預設編碼是utf-8:
123456789
>>> "résumé".encode("utf-8")b'r\xc3\xa9sum\xc3\xa9'>>> "El Niño".encode("utf-8")b'El Ni\xc3\xb1o'>>> b"r\xc3\xa9sum\xc3\xa9".decode("utf-8")'résumé'>>> b"El Ni\xc3\xb1o".decode("utf-8")'El Niño'
str.encode()的結果是一個bytes對象,bytes對象只允許ASCII字元。這就是為什麼在調用“ElNiño”.encode(“utf-8”)時,允許ASCII相容的“El”按原樣表示,但帶有波浪號的n被轉義為“\ xc3 \ xb1”。 這個看起來很亂的序列代表兩個位元組,十六進位為0xc3和0xb1:
12
>>> " ".join(f"{i:08b}" for i in (0xc3, 0xb1))'11000011 10110001'
Python3一切字元皆Unicode
預設情況下,Python 3源代碼假定為UTF-8。 這意味著您不需要# - - 編碼:UTF-8 - - 位於Python 3中.py文件的頂部。
預設情況下,所有文本(str)都是Unicode。 編碼的Unicode文本表示為二進位數據(位元組)。 str類型可以包含任何文字Unicode字元,例如“Δv/Δt”,所有這些字元都將存儲為Unicode。
Unicode字元集中的任何內容都是標識符中的猶太符號,這意味著résumé=“〜/ Documents / resume.pdf”是有效的,雖然這看起來很花哨。
Python的re模塊預設為re.UNICODE標誌而不是re.ASCII。 這意味著,例如,r“\ w”匹配Unicode字元,而不僅僅是ASCII字母。
str.encode()和bytes.decode()中的預設編碼是UTF-8。
還有一個更細微的屬性,即內置的open()的預設編碼是依賴於平臺的,並且取決於locale.getpreferredencoding()的值:
123456789
>>> # Mac OS X High Sierra>>> import locale>>> locale.getpreferredencoding()'UTF-8'>>> # Windows Server 2012; other Windows builds may use UTF-16>>> import locale>>> locale.getpreferredencoding()'cp1252'
一個關鍵特性是UTF-8是一種可變長度編碼。回想一下關於ASCII的部分。 擴展ASCII-land中的所有內容最多需要一個位元組的空間。 您可以使用以下生成器表達式快速證明這一點:
12
>>> all(len(chr(i).encode("ascii")) == 1 for i in range(128))True
UTF-8完全不同。 給定的Unicode字元可以占用1到4個位元組。 以下是占用四個位元組的單個Unicode字元的示例:
123456789101112
>>> ibrow = "
您的分享是我們最大的動力!
-Advertisement-
更多相關文章
在我剛接觸編程的時候, 那時候面試小題目很喜歡問下麵這幾類問題 1' 浮點數如何和零比較大小? 2' 浮點數如何轉為整型? 然後過了七八年後這類問題應該很少出現在面試中了吧. 剛好最近我遇到線上 bug, 同大家交流科普下 問題最小現場 #include <stdio.h> int main(voi ...
1 #include <iostream> 2 3 using namespace std; 4 5 class Pet 6 { 7 public: 8 virtual void Speak(){cout<<"How does a pet speak?"<<endl;} 9 }; 10 11 cla ...
集群相關 查看k8s版本 kubectl version 查看api版本 kubectl api-versions 查看集群信息 kubectl cluster-info 查看集群健康情況 kubectl get cs 查看事件 kubectl get events Node節點 查看節點列表信息 ...
一丶簡介 Fanout Exchange 不處理路由鍵。你只需要簡單的將隊列綁定到交換機上。一個發送到交換機的消息都會被轉發到與該交換機綁定的所有隊列上。很像子網廣播,每檯子網內的主機都獲得了一份複製的消息。Fanout交換機轉發消息是最快的。 業務場景: 1.訂單服務需要同時向簡訊服務和push服 ...
1. spring boot lll starter自動化框架介紹 1.1. 前言 舔著臉來介紹一波我剛寫的自動化框架, "spring boot lll starter" 框架是經由我企業實戰總結的一套,適用於項目起始構建的框架,適配了管理後臺和微服務項目兩種方案的代碼生成 我做了一個簡短的dem ...
C語言被忽視的一些小東西!C語言基礎教程之錯誤處理。 C 語言不提供對錯誤處理的直接支持,但是作為一種系統編程語言,它以返回值的形式允許您訪問底層數據。在發生錯誤時,大多數的 C 或 UNIX 函數調用返回 1 或 NULL,同時會設置一個錯誤代碼errno,該錯誤代碼是全局變數,表示在函數調用期間 ...
任何可以產生對象的方法或者類,都可以稱之為工廠。單例就是所謂的靜態工廠。 為什麼jdk中有了new,還需要工廠呢? a、靈活的控制生產過程 b、給對象加修飾、或者給對象加訪問許可權,或者能夠在對象生產過程中添加一些日誌信息,再或者根據應用場景添加一些實際的業務處理等等。 1、靜態工廠 單例模式:一種特 ...
一、JSR 303 1、什麼是 JSR 303? JSR 是 Java Specification Requests 的縮寫,即 Java 規範提案。 存在各種各樣的 JSR,簡單的理解為 JSR 是一種 Java 標準。 JSR 303 就是數據檢驗的一個標準(Bean Validation (J ...
一周排行
-Advertisement-
移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...
Copyright ©2016 ZenDei.com All Rights Reserved.
廣告合作: info@ ZenDei.com