Python字元串和編碼_ZenDei技術網路在線

Python字元串和編碼

-Advertisement-

在最早的時候只有127個字元被編碼到電腦里，也就是大小寫英文字母、數字和一些符號，這個編碼被成為ASCII編碼。但是要處理中文顯然一個位元組是不夠的，至少需要兩個位元組，而且還不能和ASCII編碼衝突，所以中國制定了GB2312編碼，用來把中文編進去。世界上有很多語言，各國有各國的標準，就會不可避 ...

　　在最早的時候只有127個字元被編碼到電腦里，也就是大小寫英文字母、數字和一些符號，這個編碼被成為ASCII編碼。

　　但是要處理中文顯然一個位元組是不夠的，至少需要兩個位元組，而且還不能和ASCII編碼衝突，所以中國制定了GB2312編碼，用來把中文編進去。

　　世界上有很多語言，各國有各國的標準，就會不可避免地出現衝突，結果就是在多語言混合的文本中會出現亂碼。因此，Unicode應運而生。Unicode把所有的語言都統一到一套編碼里，這樣就不會再有亂碼問題了。Unicode標準在不斷發展，但最常用的是用兩個位元組表示一個字元。

　　如果統一成Unicode編碼，亂碼問題從此消失了，但如果文本里基本上全部是英文的話，用Unicode編碼比ASCII編碼要多一倍的存儲空間，在存儲和傳輸上就十分不划算。這樣就出現了把Unicode編碼轉化為“可邊長編碼”的UTF-8編碼。UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組，常用的英文字母被編碼成1個位元組，漢字通常是3個位元組，只有很生僻的字元才會被編碼成4-6個位元組，如果要傳輸的文本包含大量英文字元，用UTF-8編碼就能節省空間。

　　ASCII編碼實際上可以被看成是UTF-8編碼的一部分。

　　在電腦記憶體中，統一使用Unicode編碼，當需要保存到硬碟或者需要傳輸的時候，就轉換為UTF-8編碼。

　　在最新的Python 3版本中，字元串是以Unicode編碼的。

　　對於單個字元的編碼，Python提供了ord()函數獲取字元的整數表示，chr()函數把編碼轉換為對應的字元。

　　由於Python的字元串類型是str，在記憶體中以Unicode表示，一個字元對應若幹個位元組。如果要在網路上傳輸，或者保存到磁碟上，就需要把str變為以位元組為單位的bytes。

　　Python對bytes類型的數據用帶b首碼的單引號或雙引號表示：x = b'ABC'。要註意區分'ABC'和b'ABC'，前者是str，後者雖然內容顯示得和前者一樣，但bytes的每個字元都只占用一個位元組。

　　以Unicode表示的str通過encode()方法可以編碼為指定的bytes，例如：

'ABC'.encode('ascii')

'中文'.encode('utf-8')

　　純英文的str可以用ASCII編碼為bytes，內容是一樣的，含有中文的str可以用UTF-8編碼為bytes。

　　反過來，如果我們從網路或磁碟上讀取了位元組流，那麼讀到的數據就是bytes。要把bytes變為str，就需要用decode()方法：

b'ABC'.decode('ascii')

　　要計算str包含多少個字元，可以用len()函數。len()函數計算的是str的字元數，如果換成bytes，len()函數就計算位元組數。

格式化

　　在Python中，採用的格式化方式和C語言是一樣的，用%實現。

　　在字元串內部，%s表示用字元串替換，%d表示用整數替換，%f浮點數，%x十六進位整數。其中，格式化整數和浮點數還可以指定是否補0和整數與小數的位數。比如：

print('%2d-%02d' % (3, 1))

print('%.2f' % 3.1415926)。

　　如果不太確定應該用什麼，%s永遠起作用，它會把任何數據類型轉換為字元串。

　　format：另一種格式化字元串的方法是使用字元串的format()方法，它會用傳入的參數依次替換字元串內的占位符{0}、{1}……，不過這種方式寫起來比%要麻煩得多：

'Hello, {0}, 成績提升了{1:.1f}%'.format('小明', 12,123)，列印結果為：Hello, 小明，成績提升了17.1%。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

eclipse下搭建hibernate5.0環境

二.安裝hibernate插件打開eclipse，點擊help-->eclipse marketplace,如圖輸入:Hibernate Tools,再點擊Goa按鈕，找到JBoss Tools 點擊install安裝如圖選擇Hibernate Tools，點擊Confrm安裝。安裝完成後重啟e ...
python+MongoDB使用示例

本博客起源於博主的大三NoSQL課程設計，採用python+MongoDB結合方式，將數據從txt文件導入MongoDB之中，再將其取出以作圖。主要技術是採用python與MongoDB結合存儲讀取方案，所以本博客截取了課設的部分內容，主要講解python操作MongoDB方案實現，以給想要學習py ...
Python數據類型之list和tuple

list是一種有序的集合，可以隨時添加和刪除其中的元素。用len()函數可以獲得list元素的個數。用索引來訪問list中每一個位置的元素，索引是從0開始的。如果要取最後一個元素，除了計算索引位置外，還可以用-1作索引，直接獲取最後一個元素。以此類推，可以獲取倒數第2個、倒數第3個。 list是 ...
第 6 章 C控制語句：迴圈

6.16.3 使用嵌套迴圈，按下麵格式列印字母： F FE FED FEDC FEDCB FEDCBA 1 #include <stdio.h> 2 3 int main() 4 { 5 const int ROWS = 6; 6 7 for (int row(0); row != ROWS; ++ ...
BZOJ 3053: The Closest M Points(K-D Tree)

Description The course of Software Design and Development Practice is objectionable. ZLC is facing a serious problem .There are many points in K-dimen ...
數組逆序排列

方法一： public void reverse(String arr[]){ for(int i=arr.length-1;i>=0;i--){ System.out.println(arr[i]); } } 方法二： public static void reverse2(String arr[ ...
Spring_配置Tiles時報錯：org.apache.tiles.template.NoSuchAttributeException：Attribute 'header' not found.

org.apache.tiles.template.NoSuchAttributeException: Attribute 'header' not found. ...
C++學習（八）之圖形庫

有關圖形庫的學習筆記 1.安裝 ww.easys.cn 2.創建win32控制台應用程式 .cpp文件（圖形庫必須創建cpp文件） *重點 3.安裝好後重啟一下vs 圖形庫是一些函數的集合作用是做一些界面和滑鼠操作函數-->幫助文檔 1.基本概念顏色 RGB值 -->RGB值表示一種顏色 ...