Python中的編碼問題，中文亂碼問題

-Advertisement-

1、如果不聲明編碼，則中文會報錯，即使是註釋也會報錯。只要寫中文，必須加一句：# -- coding:utf-8 --。原因：答案在PEP-0263裡面有所提及，那就是Emacs等編輯器使用這種方式進行編碼聲明。 2、文檔編碼是一種告訴程式——無論是電腦的操作系統還是Python 代碼——讀取文檔 ...

1、如果不聲明編碼，則中文會報錯，即使是註釋也會報錯。只要寫中文，必須加一句：# -- coding:utf-8 --。原因：答案在PEP-0263裡面有所提及，那就是Emacs等編輯器使用這種方式進行編碼聲明。

2、文檔編碼是一種告訴程式——無論是電腦的操作系統還是Python 代碼——讀取文檔的規則。正確讀取一個文檔，往往需要先知道文件的擴展名，因為編碼方式往往與擴展名有很大的關係。

3、(1)純文本文檔的獲取與處理：直接用urlopen讀取後，用read()函數獲取文本內容即可。純文本頁面不要轉換成BeautifulSoup對象，因為無法解析，會被認為是一堆字元串，只能用字元串的操作方法來解析。

　 (2)CSV文檔、PDF文檔等非純文本文檔的讀取方式：直接通過文檔獲取鏈接以字元串的方式讀取文檔——通過io庫的StringIO函數將字元串轉換為StringIO對象——通過CSV庫或PDF庫將StringIO對象讀取為相應格式的文檔，

4、編碼類型：

(1)UTF-8：統一字元集-轉換格式8位。它的開頭有標記指示字元占了用了多少個位元組來表示，一個字元最多有四個位元組。

(2)ASCII：每個字元7位，用來表示中文會不夠用，但是英文夠用了。

(3)UtF-8和ASCII的結合：首位為0，即只包含一個位元組的UTF-8字元和ASCII通用，因為相當於只用到了7位。但首位為1的兩位元組UTF-8字元不通用。

(4)ISO編碼：解決非英文非中文語言文檔太大的問題，比如土耳其語沒有那麼多字元，又不能用單純的ASCII。因此使用ASCII的首位來做特殊化，可以針對不同的語言生成不同的規則。

5、在用Python讀網頁或文檔時，最好統一將獲取的內容統一轉換成UTF-8編碼。獲取國際站的內容時，最好先看看網站metasharset信息中所指示的編碼方式後再確定選擇哪種編碼方式。

6、Encode和Decode：

　　字元串在Python內部的表示是unicode編碼，因此，在做編碼轉換時，通常需要以unicode作為中間編碼，即先將其他編碼的字元串解碼（decode）成unicode，再從unicode編碼（encode）成另一種編碼。

　　decode的作用是將其他編碼的字元串轉換成unicode編碼，如str1.decode(‘gb2312’)，表示將gb2312編碼的字元串str1轉換成unicode編碼。

　　encode的作用是將unicode編碼轉換成其他編碼的字元串，如str2.encode(‘gb2312’)，表示將unicode編碼的字元串str2轉換成gb2312編碼。

　　因此，轉碼的時候一定要先搞明白，字元串str是什麼編碼，然後decode成unicode，然後再encode成其他編碼

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

PHP+Ajax+plupload無刷新上傳頭像代碼

很簡單的一款PHP+Ajax+plupload無刷新上傳頭像代碼，相容性很好，可以直接拿來用。你可以自定義各種類型的文件。本實例中只能上傳"jpg", "png", "gif", "jpeg"等圖片文件引入jQuery庫和plupload上傳組件 plupload單圖片上傳配置本實例下載：htt ...
Python基礎學習之Python主要的數據分析工具總結

Python主要是依靠眾多的第三方庫來增強它的數據處理能力的。常用的是Numpy庫，Scipy庫、Matplotlib庫、Pandas庫、Scikit-Learn庫等。常規版本的python需要在安裝完成後另外下載相應的第三方庫來安裝庫文件。而若安裝的是Anaconda版本的Python，則不需要 ...
【代碼】Django學習筆記

一些設置setting.py 運行項目內應用測試模塊tests.py，報錯處理如下： ...
用Python爬取"王者農藥"英雄皮膚

作為一款現象級游戲，王者榮耀，想必大家都玩過或聽過，游戲里中各式各樣的英雄，每款皮膚都非常精美，用做電腦壁紙再合適不過了。本篇就來教大家如何使用Python來爬取這些精美的英雄皮膚。關註公眾號「**Python專欄**」，後臺回覆「**zsxq04**」，獲取本文全套源碼！ ...
“藍橋杯”練習系統練習題答案（自己做的）

題目來源：藍橋杯練習系統（寫博客日期為2019.3.23，所以可能讀者看到的時候，更新了新的題）這裡只提供每道題的我的解題代碼，僅供參考。這裡不會寫解題思路和詳解，如果有需要的話，請留言給我，我會在留言區回覆。vip題目來源dotcpp（順序跟練習系統一樣，只不過我沒有vip，所以在dotcpp ...
django源碼分析 LazySetting對象

一、django中通過LazySetting對象來獲取項目的配置，LazySetting對象有什麼特性？為什麼使用這個對象？ LazySetting顧名思義，就是延遲獲取配置內容。比如，我們定義了一個對象A，並對其添加了一些屬性，對A初始化時，我們將A的屬性的值設置為空，當我們要訪問A其中的一個屬性 ...
從零開始的Python學習Episode 23——進程

恢復內容開始進程由於GIL的存在，python中的多線程其實並不是真正的多線程，如果想要充分地使用多核CPU的資源，在python中大部分情況需要使用多進程。Python提供了非常好用的多進程包multiprocessing，只需要定義一個函數，Python會完成其他所有事情。藉助這個包，可以輕 ...
C語言數據結構基礎學習筆記——棧和隊列

之前我們學過了普通的線性表，接下來我們來瞭解一下兩種特殊的線性表——棧和隊列。棧是只允許在一端進行插入或刪除的線性表。棧的順序存儲結構也叫作順序棧，對於棧頂指針top，當棧為空棧時，top=-1；當棧為滿棧時，top=MaxSize-1。順序棧的定義為：順序棧的入棧操作為：順序棧的出棧操作為 ...