字元編碼的介紹

来源:https://www.cnblogs.com/zhangfanshixiaobai/archive/2023/09/01/17672468.html
-Advertisement-
Play Games

# 字元編碼的介紹 - 前提知識瞭解 - 字元編輯的介紹 - 字元編輯的發展 - UTF-8的由來 - 字元編碼的應用 - 編碼和解碼 ## 前提知識瞭解 ### 三大核心硬體 ```python 所有軟體都是運行硬體之上的,與運行軟體相關的三大核心硬體為cpu、記憶體、硬碟,我們需要明確三點 #1、 ...


字元編碼的介紹

  • 前提知識瞭解
  • 字元編輯的介紹
  • 字元編輯的發展
  • UTF-8的由來
  • 字元編碼的應用
  • 編碼和解碼

前提知識瞭解

三大核心硬體

所有軟體都是運行硬體之上的,與運行軟體相關的三大核心硬體為cpu、記憶體、硬碟,我們需要明確三點

#1、軟體運行前,軟體的代碼及其相關數據都是存放於硬碟中的

#2、任何軟體的啟動都是將數據從硬碟中讀入記憶體,然後cpu從記憶體中取出指令並執行

#3、軟體運行過程中產生的數據最先都是存放於記憶體中的,若想永久保存軟體產生的數據,則需要將數據由記憶體寫入硬碟

文本編輯器讀取文件內容的流程

#階段1、啟動一個文件編輯器(文本編輯器如nodepad++,pycharm,word)

#階段2、文件編輯器會將文件內容從硬碟讀入記憶體

#階段3、文本編輯器會將剛剛讀入記憶體中的內容顯示到屏幕上

文本編輯器將文件內容讀入記憶體後,是為了顯示或者編輯,根本不去理會python的語法,而python解釋器將文件內容讀入記憶體後,可不是為了給你瞅一眼python代碼寫的啥,而是為了執行python代碼、會識別python語法)

字元串編碼的介紹

字元編碼它的前提

# 字元編碼它的前提:它只跟字元類型和文本類型相關,跟視頻文件、音頻文件、圖片文件等無關
電腦內部只能夠認識二進位01,電腦之所以能夠認識各種各樣的字元,那是因為電腦的內部維護著一張字元編碼表

字元編碼

字元編碼(Character Encoding):字元編碼是指一種映射規則,根據這個映射規則可以將某個字元映射成其他形式的數據以便在電腦中存儲和傳輸。例如ASCII字元編碼規定使用單位元組中低位的7個比特去編碼所有的字元,在這個編碼規則下字母A的編號是65(ASCII碼),用單位元組表示就是0x41,因此寫入存儲設備的時候就是二進位的 01000001。每種字元集都有自己的字元編碼規則,常用的字元集編碼規則還有 UTF-8編碼、GBK編碼、Big5編碼等。

aslt.jpg

字元編碼的發展

一家獨大

上個世紀60年代,美國制定了一套字元編碼規則,對英語字元與二進位位之間的關係做了統一規定,這編碼規則被稱為ASCII編碼,一直沿用至今。

ASCII編碼一共規定了128個字元的編碼規則,這128個字元形成的集合就叫做ASCII字元集。在ASCII編碼中,每個字元占用一個位元組的後面7位,最前面的1位統一規定為0。在ASCII編碼中,0~31 是控制字元如換行回車刪除等,32~126 是可列印字元,可以通過鍵盤輸入並且能夠顯示出來。(下圖是ASCII字元集中字元和碼值的對應關係)

五代十國

R-C1.jpg

英語用128個符號編碼就夠了,但是用來表示其他語言,128個符號是不夠的。所以當ASCII碼到歐洲的時候,一些歐洲國家就決定對ASCII編碼進行適當的“改造”:利用位元組中閑置的最高位編入新的符號。比如,法語中的é的編碼為130(二進位10000010)。這樣一來,這些歐洲國家使用的編碼體系,可以表示最多256個符號。這個編碼統稱為EASCII(Extended ASCII)。

但是歐洲的語言體系有個特點:小國家特別多,每個國家可能都有自己的語言體系,語言環境十分複雜。因此即使EASCII可以表示256個字元,也不能統一歐洲的語言環境。

為瞭解決上面這個問題,人們想出了一個折中的方案:在EASCII中表示的256個字元中,前128字元和ASCII編碼表示的字元完全一樣,後128個字元每個國家或地區都有自己的編碼標準。比如,130在法語編碼中代表了é,在希伯來語編碼中卻代表了字母Gimel (ג),在俄語編碼中又會代表另一個符號。但是不管怎樣,所有這些編碼方式中,0—127表示的符號是一樣的,不一樣的只是128—255的這一段。

根據這個規則,就形成了很多子標準:ISO-8859-1、ISO-8859-2、ISO-8859-3、……、ISO-8859-16。這些子標準適用於歐洲不同的國家地區。

大一統

秦朝.jpeg

ASCII碼字元集,總共才能容納256個字元,對於全世界各國語言來說,很難全部包含在內,所有後來就出現了Unicode字元集。

Unicode字元集是一個很大的字元集合,現在的規模可以容納100多萬個符號。每個符號的編碼都不一樣,比如,U+0639表示阿拉伯字母Ain,U+0041表示英語的大寫字母A,U+4E25表示漢字“嚴”。
需要註意的是,Unicode只是一個字元集,它只規定了符號的二進位代碼,卻沒有規定這個二進位代碼應該如何編碼如何存儲。這就造成了兩個問題:

第一個問題是,如何才能區別Unicode和ASCII?電腦怎麼知道三個位元組表示一個符號,而不是分別表示三個符號呢?
第二個問題是,我們已經知道,英文字母只用一個位元組表示就夠了,如果unicode統一規定,每個符號用三個或四個位元組表示,那麼每個英文字母前都必然有二到三個位元組是0,這對於存儲來說是極大的浪費,文本文件的大小會因此大出二三倍,這是無法接受的。
為瞭解決Unicode字元集存在的問題,就出現了UTF(Unicode Transformation Formats)系列的編碼規則。UTF編碼規則具體規定了Unicode字元集中的字元是如何編碼的。

總結:Unicode是一個很大的字元集,這個字元集只規定了這個字元集中每個字元對應的碼值是多少,但是這個字元集並沒有規定具體的編碼規則,具體的編碼規則有UTF系列的編碼規則實現。
文本編輯器輸入任何字元都是最新存在於記憶體中,是unicode編碼的,存放於硬碟中,則可以轉換成任意其他編碼,只要該編碼可以支持相應的字元

# 英文字元可以被ASCII識別
英文字元--->unciode格式的數字--->ASCII格式的數字

# 中文字元、英文字元可以被GBK識別
中文字元、英文字元--->unicode格式的數字--->gbk格式的數字

# 日文字元、英文字元可以被shift-JIS識別
日文字元、英文字元--->unicode格式的數字--->shift-JIS格式的數字

cpu _1_.png

UTF-8的由來

UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼規則,又稱萬國碼。由Ken Thompson於1992年創建。現在已經標準化為RFC 3629。UTF-8用1到4個位元組編碼Unicode字元。用在網頁上可以統一頁面顯示中文簡體繁體及其它語言(如英文,日文,韓文)
UTF-8就是在互聯網上使用最廣的一種Unicode的實現方式。其他實現方式還包括UTF-16和UTF-32,不過在互聯網上基本不用。重覆一遍,這裡的關係是:UTF-8編碼是Unicode的實現方式之一。
UTF-8最大的一個特點,就是它是一種變長的編碼方式。它可以使用1~4個位元組表示一個符號,根據不同的符號而變化位元組長度(UTF-8編碼可以容納2^21個字元,總共200多萬個字元)。
再次強調一個概念:就是Unicode是一個字元集,這個字元集世界上所有的字元定義了一個唯一編碼。其僅僅規定了每個符號的二進位代碼,沒有制定細化的存儲規則。UTF-8、UTF-16、UTF-32才是Unicode的存儲格式定義。

字元編碼的應用

1. 如何解決亂碼問題?
	你在寫文件的時候使用的是什麼編碼,那麼你打開的時候就使用對應編碼解碼就行

2. Python解釋器版本不同代碼的編碼問題
	"""
		在python2中使用的編碼表不是utf-8,而是ASCII碼表
            # coding:utf-8
        
        """它使用的是ASCII碼表"""
            # 在Python2 中如何定義中文字元
            s = u'你好'
            print s
	"""

編碼和解碼

由字元轉換成記憶體中的unicode,以及由unicode轉換成其他編碼的過程,都稱為編碼encode

編碼

編碼1.jpg

由記憶體中的unicode轉換成字元,以及由其他編碼轉換成unicode的過程,都稱為解碼decode

解碼

把電腦能夠讀懂的數字轉化為人類能夠讀懂的字元
 # 編碼
    # res = '趁年輕,學技能,養活自己'
    res = '趁年輕'
    # print(res.encode('utf-8')) # b'\xe8\xb6\x81\xe5\xb9\xb4\xe8\xbd\xbb' bytes


                                         # b'\xe8\xb6\x81\xe5\xb9\xb4\xe8\xbd\xbb'
    # 解碼
    res1 = res.encode('utf-8')
    print(res1.decode('utf-8'))  # 趁年輕

    """如果遇到解碼的時候,你不指定使用什麼編碼進行解碼,你就試:utf-8 gbk"""

    # 擴展
    res2 = 'hello world'
    print(res2.encode('utf-8'))
    # print(b'hello world')

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本章詳細指導了你如何安裝 HarmonyOS SDK、配置開發環境、創建 HarmonyOS 項目。現在,你已經準備好開始 HarmonyOS 開發了。 ...
  • TV屏使用遙控器控制,通過焦點操作界面,就跟電視投屏類似 一共兩個核心,焦點的處理,按鍵的監聽處理 按鍵原生提供了onKeyDown 來監聽,通過不同的 keyCode 區分不同的按鍵 一般如果沒有遙控器,可以通過電腦鍵盤測試,使用投屏軟體投屏後,對鍵盤按鍵效果跟遙控器類似 有時候沒有實體按鍵(比如 ...
  • 寫博客也有一個月了,發現博客園自帶的主題都不太好看,然後搜索了一下發現這款主題【Cnblogs-Theme-SimpleMemory】界面還挺好看的,也是開源的。那[西瓜程式猿]就以這個主題來介紹一下如何在博客園中進行配置,跟著一起來操作吧! ...
  • # 概述 Content-Type和Accept是兩個HTTP標頭(HTTP headers),用於在HTTP請求和響應之間傳遞有關請求的數據類型和響應的首選內容類型的信息。這兩個標頭在HTTP通信中起著關鍵的作用。 1. Content-Type: - `Content-Type` 是HTTP請求 ...
  • # ExpressJS集成express-ws [TOC] ## 版本 ```JSON "express": "~4.16.1", "express-ws": "^5.0.2", ``` ## 簡單使用 - app.js ```JS const express = require('express' ...
  • # vscode使用圖片所遇到的問題 1、截屏出來的圖片放到像素大廚量時發現量出來的像素太大 解決方法一: 設置設計圖為2x,這樣能把誤差降低很多,但跟實際大小還是差了一些,可以自己在微調。如下圖所示 ![屏幕截圖 2023-09-01 135647](https://gitee.com/zheng ...
  • 導語 一開始我們就說過Kafka是一款開源的高吞吐、分散式的消息隊列系統,那麼今天我們就來說下它的分散式架構和高可用性以及雙/多中心部署。 Kafka 體系架構簡介 以下是 Kafka 的軟體架構,整個 Kafka 體繫結構由 Producer、Consumer、Broker、ZooKeeper 組 ...
  • java中要實現excel新老格式的轉換比較麻煩,開源庫也沒幾個好用的。用ChatGpt查詢也是推薦直接用POI,下麵是藉助ChatGPT寫出來的代碼,經過小小修改,格式轉換良好,基本能用,就是效率比較低下。將就著用吧,哎! /** * Excel格式從xls轉換成xlsx格式 * * @param ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...