字元編碼的介紹

来源:https://www.cnblogs.com/zhangfanshixiaobai/archive/2023/09/01/17672468.html
-Advertisement-
Play Games

# 字元編碼的介紹 - 前提知識瞭解 - 字元編輯的介紹 - 字元編輯的發展 - UTF-8的由來 - 字元編碼的應用 - 編碼和解碼 ## 前提知識瞭解 ### 三大核心硬體 ```python 所有軟體都是運行硬體之上的,與運行軟體相關的三大核心硬體為cpu、記憶體、硬碟,我們需要明確三點 #1、 ...


字元編碼的介紹

  • 前提知識瞭解
  • 字元編輯的介紹
  • 字元編輯的發展
  • UTF-8的由來
  • 字元編碼的應用
  • 編碼和解碼

前提知識瞭解

三大核心硬體

所有軟體都是運行硬體之上的,與運行軟體相關的三大核心硬體為cpu、記憶體、硬碟,我們需要明確三點

#1、軟體運行前,軟體的代碼及其相關數據都是存放於硬碟中的

#2、任何軟體的啟動都是將數據從硬碟中讀入記憶體,然後cpu從記憶體中取出指令並執行

#3、軟體運行過程中產生的數據最先都是存放於記憶體中的,若想永久保存軟體產生的數據,則需要將數據由記憶體寫入硬碟

文本編輯器讀取文件內容的流程

#階段1、啟動一個文件編輯器(文本編輯器如nodepad++,pycharm,word)

#階段2、文件編輯器會將文件內容從硬碟讀入記憶體

#階段3、文本編輯器會將剛剛讀入記憶體中的內容顯示到屏幕上

文本編輯器將文件內容讀入記憶體後,是為了顯示或者編輯,根本不去理會python的語法,而python解釋器將文件內容讀入記憶體後,可不是為了給你瞅一眼python代碼寫的啥,而是為了執行python代碼、會識別python語法)

字元串編碼的介紹

字元編碼它的前提

# 字元編碼它的前提:它只跟字元類型和文本類型相關,跟視頻文件、音頻文件、圖片文件等無關
電腦內部只能夠認識二進位01,電腦之所以能夠認識各種各樣的字元,那是因為電腦的內部維護著一張字元編碼表

字元編碼

字元編碼(Character Encoding):字元編碼是指一種映射規則,根據這個映射規則可以將某個字元映射成其他形式的數據以便在電腦中存儲和傳輸。例如ASCII字元編碼規定使用單位元組中低位的7個比特去編碼所有的字元,在這個編碼規則下字母A的編號是65(ASCII碼),用單位元組表示就是0x41,因此寫入存儲設備的時候就是二進位的 01000001。每種字元集都有自己的字元編碼規則,常用的字元集編碼規則還有 UTF-8編碼、GBK編碼、Big5編碼等。

aslt.jpg

字元編碼的發展

一家獨大

上個世紀60年代,美國制定了一套字元編碼規則,對英語字元與二進位位之間的關係做了統一規定,這編碼規則被稱為ASCII編碼,一直沿用至今。

ASCII編碼一共規定了128個字元的編碼規則,這128個字元形成的集合就叫做ASCII字元集。在ASCII編碼中,每個字元占用一個位元組的後面7位,最前面的1位統一規定為0。在ASCII編碼中,0~31 是控制字元如換行回車刪除等,32~126 是可列印字元,可以通過鍵盤輸入並且能夠顯示出來。(下圖是ASCII字元集中字元和碼值的對應關係)

五代十國

R-C1.jpg

英語用128個符號編碼就夠了,但是用來表示其他語言,128個符號是不夠的。所以當ASCII碼到歐洲的時候,一些歐洲國家就決定對ASCII編碼進行適當的“改造”:利用位元組中閑置的最高位編入新的符號。比如,法語中的é的編碼為130(二進位10000010)。這樣一來,這些歐洲國家使用的編碼體系,可以表示最多256個符號。這個編碼統稱為EASCII(Extended ASCII)。

但是歐洲的語言體系有個特點:小國家特別多,每個國家可能都有自己的語言體系,語言環境十分複雜。因此即使EASCII可以表示256個字元,也不能統一歐洲的語言環境。

為瞭解決上面這個問題,人們想出了一個折中的方案:在EASCII中表示的256個字元中,前128字元和ASCII編碼表示的字元完全一樣,後128個字元每個國家或地區都有自己的編碼標準。比如,130在法語編碼中代表了é,在希伯來語編碼中卻代表了字母Gimel (ג),在俄語編碼中又會代表另一個符號。但是不管怎樣,所有這些編碼方式中,0—127表示的符號是一樣的,不一樣的只是128—255的這一段。

根據這個規則,就形成了很多子標準:ISO-8859-1、ISO-8859-2、ISO-8859-3、……、ISO-8859-16。這些子標準適用於歐洲不同的國家地區。

大一統

秦朝.jpeg

ASCII碼字元集,總共才能容納256個字元,對於全世界各國語言來說,很難全部包含在內,所有後來就出現了Unicode字元集。

Unicode字元集是一個很大的字元集合,現在的規模可以容納100多萬個符號。每個符號的編碼都不一樣,比如,U+0639表示阿拉伯字母Ain,U+0041表示英語的大寫字母A,U+4E25表示漢字“嚴”。
需要註意的是,Unicode只是一個字元集,它只規定了符號的二進位代碼,卻沒有規定這個二進位代碼應該如何編碼如何存儲。這就造成了兩個問題:

第一個問題是,如何才能區別Unicode和ASCII?電腦怎麼知道三個位元組表示一個符號,而不是分別表示三個符號呢?
第二個問題是,我們已經知道,英文字母只用一個位元組表示就夠了,如果unicode統一規定,每個符號用三個或四個位元組表示,那麼每個英文字母前都必然有二到三個位元組是0,這對於存儲來說是極大的浪費,文本文件的大小會因此大出二三倍,這是無法接受的。
為瞭解決Unicode字元集存在的問題,就出現了UTF(Unicode Transformation Formats)系列的編碼規則。UTF編碼規則具體規定了Unicode字元集中的字元是如何編碼的。

總結:Unicode是一個很大的字元集,這個字元集只規定了這個字元集中每個字元對應的碼值是多少,但是這個字元集並沒有規定具體的編碼規則,具體的編碼規則有UTF系列的編碼規則實現。
文本編輯器輸入任何字元都是最新存在於記憶體中,是unicode編碼的,存放於硬碟中,則可以轉換成任意其他編碼,只要該編碼可以支持相應的字元

# 英文字元可以被ASCII識別
英文字元--->unciode格式的數字--->ASCII格式的數字

# 中文字元、英文字元可以被GBK識別
中文字元、英文字元--->unicode格式的數字--->gbk格式的數字

# 日文字元、英文字元可以被shift-JIS識別
日文字元、英文字元--->unicode格式的數字--->shift-JIS格式的數字

cpu _1_.png

UTF-8的由來

UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼規則,又稱萬國碼。由Ken Thompson於1992年創建。現在已經標準化為RFC 3629。UTF-8用1到4個位元組編碼Unicode字元。用在網頁上可以統一頁面顯示中文簡體繁體及其它語言(如英文,日文,韓文)
UTF-8就是在互聯網上使用最廣的一種Unicode的實現方式。其他實現方式還包括UTF-16和UTF-32,不過在互聯網上基本不用。重覆一遍,這裡的關係是:UTF-8編碼是Unicode的實現方式之一。
UTF-8最大的一個特點,就是它是一種變長的編碼方式。它可以使用1~4個位元組表示一個符號,根據不同的符號而變化位元組長度(UTF-8編碼可以容納2^21個字元,總共200多萬個字元)。
再次強調一個概念:就是Unicode是一個字元集,這個字元集世界上所有的字元定義了一個唯一編碼。其僅僅規定了每個符號的二進位代碼,沒有制定細化的存儲規則。UTF-8、UTF-16、UTF-32才是Unicode的存儲格式定義。

字元編碼的應用

1. 如何解決亂碼問題?
	你在寫文件的時候使用的是什麼編碼,那麼你打開的時候就使用對應編碼解碼就行

2. Python解釋器版本不同代碼的編碼問題
	"""
		在python2中使用的編碼表不是utf-8,而是ASCII碼表
            # coding:utf-8
        
        """它使用的是ASCII碼表"""
            # 在Python2 中如何定義中文字元
            s = u'你好'
            print s
	"""

編碼和解碼

由字元轉換成記憶體中的unicode,以及由unicode轉換成其他編碼的過程,都稱為編碼encode

編碼

編碼1.jpg

由記憶體中的unicode轉換成字元,以及由其他編碼轉換成unicode的過程,都稱為解碼decode

解碼

把電腦能夠讀懂的數字轉化為人類能夠讀懂的字元
 # 編碼
    # res = '趁年輕,學技能,養活自己'
    res = '趁年輕'
    # print(res.encode('utf-8')) # b'\xe8\xb6\x81\xe5\xb9\xb4\xe8\xbd\xbb' bytes


                                         # b'\xe8\xb6\x81\xe5\xb9\xb4\xe8\xbd\xbb'
    # 解碼
    res1 = res.encode('utf-8')
    print(res1.decode('utf-8'))  # 趁年輕

    """如果遇到解碼的時候,你不指定使用什麼編碼進行解碼,你就試:utf-8 gbk"""

    # 擴展
    res2 = 'hello world'
    print(res2.encode('utf-8'))
    # print(b'hello world')

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本章詳細指導了你如何安裝 HarmonyOS SDK、配置開發環境、創建 HarmonyOS 項目。現在,你已經準備好開始 HarmonyOS 開發了。 ...
  • TV屏使用遙控器控制,通過焦點操作界面,就跟電視投屏類似 一共兩個核心,焦點的處理,按鍵的監聽處理 按鍵原生提供了onKeyDown 來監聽,通過不同的 keyCode 區分不同的按鍵 一般如果沒有遙控器,可以通過電腦鍵盤測試,使用投屏軟體投屏後,對鍵盤按鍵效果跟遙控器類似 有時候沒有實體按鍵(比如 ...
  • 寫博客也有一個月了,發現博客園自帶的主題都不太好看,然後搜索了一下發現這款主題【Cnblogs-Theme-SimpleMemory】界面還挺好看的,也是開源的。那[西瓜程式猿]就以這個主題來介紹一下如何在博客園中進行配置,跟著一起來操作吧! ...
  • # 概述 Content-Type和Accept是兩個HTTP標頭(HTTP headers),用於在HTTP請求和響應之間傳遞有關請求的數據類型和響應的首選內容類型的信息。這兩個標頭在HTTP通信中起著關鍵的作用。 1. Content-Type: - `Content-Type` 是HTTP請求 ...
  • # ExpressJS集成express-ws [TOC] ## 版本 ```JSON "express": "~4.16.1", "express-ws": "^5.0.2", ``` ## 簡單使用 - app.js ```JS const express = require('express' ...
  • # vscode使用圖片所遇到的問題 1、截屏出來的圖片放到像素大廚量時發現量出來的像素太大 解決方法一: 設置設計圖為2x,這樣能把誤差降低很多,但跟實際大小還是差了一些,可以自己在微調。如下圖所示 ![屏幕截圖 2023-09-01 135647](https://gitee.com/zheng ...
  • 導語 一開始我們就說過Kafka是一款開源的高吞吐、分散式的消息隊列系統,那麼今天我們就來說下它的分散式架構和高可用性以及雙/多中心部署。 Kafka 體系架構簡介 以下是 Kafka 的軟體架構,整個 Kafka 體繫結構由 Producer、Consumer、Broker、ZooKeeper 組 ...
  • java中要實現excel新老格式的轉換比較麻煩,開源庫也沒幾個好用的。用ChatGpt查詢也是推薦直接用POI,下麵是藉助ChatGPT寫出來的代碼,經過小小修改,格式轉換良好,基本能用,就是效率比較低下。將就著用吧,哎! /** * Excel格式從xls轉換成xlsx格式 * * @param ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...