Python中的編碼問題,中文亂碼問題

来源:https://www.cnblogs.com/windyrainy/archive/2019/03/23/10584943.html
-Advertisement-
Play Games

1、如果不聲明編碼,則中文會報錯,即使是註釋也會報錯。只要寫中文,必須加一句:# -- coding:utf-8 --。原因:答案在PEP-0263裡面有所提及,那就是Emacs等編輯器使用這種方式進行編碼聲明。 2、文檔編碼是一種告訴程式——無論是電腦的操作系統還是Python 代碼——讀取文檔 ...


1、如果不聲明編碼,則中文會報錯,即使是註釋也會報錯。只要寫中文,必須加一句:# -- coding:utf-8 --。原因:答案在PEP-0263裡面有所提及,那就是Emacs等編輯器使用這種方式進行編碼聲明。

2、文檔編碼是一種告訴程式——無論是電腦的操作系統還是Python 代碼——讀取文檔的規則。正確讀取一個文檔,往往需要先知道文件的擴展名,因為編碼方式往往與擴展名有很大的關係。

3、(1)純文本文檔的獲取與處理:直接用urlopen讀取後,用read()函數獲取文本內容即可。純文本頁面不要轉換成BeautifulSoup對象,因為無法解析,會被認為是一堆字元串,只能用字元串的操作方法來解析。 

  (2)CSV文檔、PDF文檔等非純文本文檔的讀取方式:直接通過文檔獲取鏈接以字元串的方式讀取文檔——通過io庫的StringIO函數將字元串轉換為StringIO對象——通過CSV庫或PDF庫將StringIO對象讀取為相應格式的文檔,

4、編碼類型:

   (1)UTF-8:統一字元集-轉換格式8位。它的開頭有標記指示字元占了用了多少個位元組來表示,一個字元最多有四個位元組。

   (2)ASCII:每個字元7位,用來表示中文會不夠用,但是英文夠用了。

   (3)UtF-8和ASCII的結合:首位為0,即只包含一個位元組的UTF-8字元和ASCII通用,因為相當於只用到了7位。但首位為1的兩位元組UTF-8字元不通用。

   (4)ISO編碼:解決非英文非中文語言文檔太大的問題,比如土耳其語沒有那麼多字元,又不能用單純的ASCII。因此使用ASCII的首位來做特殊化,可以針對不同的語言生成不同的規則。

5、在用Python讀網頁或文檔時,最好統一將獲取的內容統一轉換成UTF-8編碼。獲取國際站的內容時,最好先看看網站metasharset信息中所指示的編碼方式後再確定選擇哪種編碼方式。

6、Encode和Decode:

  字元串在Python內部的表示是unicode編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼,即先將其他編碼的字元串解碼(decode)成unicode,再從unicode編碼(encode)成另一種編碼。

  decode的作用是將其他編碼的字元串轉換成unicode編碼,如str1.decode(‘gb2312’),表示將gb2312編碼的字元串str1轉換成unicode編碼。

  encode的作用是將unicode編碼轉換成其他編碼的字元串,如str2.encode(‘gb2312’),表示將unicode編碼的字元串str2轉換成gb2312編碼。

  因此,轉碼的時候一定要先搞明白,字元串str是什麼編碼,然後decode成unicode,然後再encode成其他編碼


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 很簡單的一款PHP+Ajax+plupload無刷新上傳頭像代碼,相容性很好,可以直接拿來用。你可以自定義各種類型的文件。本實例中只能上傳"jpg", "png", "gif", "jpeg"等圖片文件 引入jQuery庫和plupload上傳組件 plupload單圖片上傳配置 本實例下載:htt ...
  • Python主要是依靠眾多的第三方庫來增強它的數據處理能力的。常用的是Numpy庫,Scipy庫、Matplotlib庫、Pandas庫、Scikit-Learn庫等。 常規版本的python需要在安裝完成後另外下載相應的第三方庫來安裝庫文件。而若安裝的是Anaconda版本的Python,則不需要 ...
  • 一些設置setting.py 運行項目內應用測試模塊tests.py,報錯 處理如下: ...
  • 作為一款現象級游戲,王者榮耀,想必大家都玩過或聽過,游戲里中各式各樣的英雄,每款皮膚都非常精美,用做電腦壁紙再合適不過了。本篇就來教大家如何使用Python來爬取這些精美的英雄皮膚。 關註公眾號「**Python專欄**」,後臺回覆「**zsxq04**」,獲取本文全套源碼! ...
  • 題目來源: 藍橋杯練習系統(寫博客日期為2019.3.23,所以可能讀者看到的時候,更新了新的題) 這裡只提供每道題的我的解題代碼,僅供參考。這裡不會寫解題思路和詳解,如果有需要的話,請留言給我,我會在留言區回覆。vip題目來源dotcpp(順序跟練習系統一樣,只不過我沒有vip,所以在dotcpp ...
  • 一、django中通過LazySetting對象來獲取項目的配置,LazySetting對象有什麼特性?為什麼使用這個對象? LazySetting顧名思義,就是延遲獲取配置內容。比如,我們定義了一個對象A,並對其添加了一些屬性,對A初始化時,我們將A的屬性的值設置為空,當我們要訪問A其中的一個屬性 ...
  • 恢復內容開始 進程 由於GIL的存在,python中的多線程其實並不是真正的多線程,如果想要充分地使用多核CPU的資源,在python中大部分情況需要使用多進程。Python提供了非常好用的多進程包multiprocessing,只需要定義一個函數,Python會完成其他所有事情。藉助這個包,可以輕 ...
  • 之前我們學過了普通的線性表,接下來我們來瞭解一下兩種特殊的線性表——棧和隊列。 棧是只允許在一端進行插入或刪除的線性表。 棧的順序存儲結構也叫作順序棧,對於棧頂指針top,當棧為空棧時,top=-1;當棧為滿棧時,top=MaxSize-1。順序棧的定義為: 順序棧的入棧操作為: 順序棧的出棧操作為 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...