1、如果不聲明編碼,則中文會報錯,即使是註釋也會報錯。只要寫中文,必須加一句:# -- coding:utf-8 --。原因:答案在PEP-0263裡面有所提及,那就是Emacs等編輯器使用這種方式進行編碼聲明。 2、文檔編碼是一種告訴程式——無論是電腦的操作系統還是Python 代碼——讀取文檔 ...
1、如果不聲明編碼,則中文會報錯,即使是註釋也會報錯。只要寫中文,必須加一句:# -- coding:utf-8 --。原因:答案在PEP-0263裡面有所提及,那就是Emacs等編輯器使用這種方式進行編碼聲明。
2、文檔編碼是一種告訴程式——無論是電腦的操作系統還是Python 代碼——讀取文檔的規則。正確讀取一個文檔,往往需要先知道文件的擴展名,因為編碼方式往往與擴展名有很大的關係。
3、(1)純文本文檔的獲取與處理:直接用urlopen讀取後,用read()函數獲取文本內容即可。純文本頁面不要轉換成BeautifulSoup對象,因為無法解析,會被認為是一堆字元串,只能用字元串的操作方法來解析。
(2)CSV文檔、PDF文檔等非純文本文檔的讀取方式:直接通過文檔獲取鏈接以字元串的方式讀取文檔——通過io庫的StringIO函數將字元串轉換為StringIO對象——通過CSV庫或PDF庫將StringIO對象讀取為相應格式的文檔,
4、編碼類型:
(1)UTF-8:統一字元集-轉換格式8位。它的開頭有標記指示字元占了用了多少個位元組來表示,一個字元最多有四個位元組。
(2)ASCII:每個字元7位,用來表示中文會不夠用,但是英文夠用了。
(3)UtF-8和ASCII的結合:首位為0,即只包含一個位元組的UTF-8字元和ASCII通用,因為相當於只用到了7位。但首位為1的兩位元組UTF-8字元不通用。
(4)ISO編碼:解決非英文非中文語言文檔太大的問題,比如土耳其語沒有那麼多字元,又不能用單純的ASCII。因此使用ASCII的首位來做特殊化,可以針對不同的語言生成不同的規則。
5、在用Python讀網頁或文檔時,最好統一將獲取的內容統一轉換成UTF-8編碼。獲取國際站的內容時,最好先看看網站metasharset信息中所指示的編碼方式後再確定選擇哪種編碼方式。
6、Encode和Decode:
字元串在Python內部的表示是unicode編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼,即先將其他編碼的字元串解碼(decode)成unicode,再從unicode編碼(encode)成另一種編碼。
decode的作用是將其他編碼的字元串轉換成unicode編碼,如str1.decode(‘gb2312’),表示將gb2312編碼的字元串str1轉換成unicode編碼。
encode的作用是將unicode編碼轉換成其他編碼的字元串,如str2.encode(‘gb2312’),表示將unicode編碼的字元串str2轉換成gb2312編碼。
因此,轉碼的時候一定要先搞明白,字元串str是什麼編碼,然後decode成unicode,然後再encode成其他編碼