字元集與編碼01--charset vs encoding

来源:http://www.cnblogs.com/TwoWaterLee/archive/2016/08/30/5823548.html
-Advertisement-
Play Games

聲明:此文章轉載自 http://my.oschina.net/goldenshaw/blog/304493 許多時候,字元集與編碼這兩個概念常被混為一談,但兩者是有差別的,作為深入理解的第一步,首先要明確: 字元集與字元集編碼是兩個不同層面的概念 charset是character set的簡寫, ...


聲明:此文章轉載自 http://my.oschina.net/goldenshaw/blog/304493

 

許多時候,字元集與編碼這兩個概念常被混為一談,但兩者是有差別的,作為深入理解的第一步,首先要明確:

字元集字元集編碼是兩個不同層面的概念


  • charset是character set的簡寫,即字元集

  • encoding是charset encoding的簡寫,即字元集編碼,簡稱編碼

與介面及介面實現的對比

可以把這兩者與介面介面實現做個對比:

從這裡可以很清楚地看到,

  1. 編碼是依賴於字元集的,就像代碼中的介面實現依賴於介面一樣;

  2. 一個字元集可以有多個編碼實現,就像一個介面可以有多個實現類一樣。

具體例子及規範用法

可以簡單看兩個例子,一個自於html文件,用的是charset:

<meta http-equiv="content-type" content="text/html;charset=utf-8">

另一個來自於xml文件,用的是encoding:

<?xml version="1.0" encoding="UTF-8"?>

哪一種用法更規範呢?顯然是後者,它更加準確地區分了字元集與編碼的概念。

“charset=utf-8”容易讓人誤解為存在一種叫“UTF-8”的字元集,但實際上,無論是UTF-8還是UTF-16,UTF-32都是對同一種字元集的不同編碼實現而已。

為什麼要嚴格區分字元集編碼這兩個概念?


字元集編碼一對一的情形

有很多的字元編碼方案,一個字元集只有唯一一個編碼實現,兩者是一一對應的。比如GB2312,這種情況,無論你怎麼去稱呼它們,比如“GB2312編碼”,“GB2312字元集”,說來說去其實都是一個東西,可能它本身就沒有特意去做什麼區分,所以無論怎麼說都不會錯。

為什麼一對一是一種普遍的情況呢?

我們以GB2312為例,GB=Guo Biao=國標=國家標準,標準出來本來就為了統一,你一個標準弄出N個編碼實現來,你讓人家用哪個呢?

字元集編碼一對多的情形

事情到了Unicode這裡,變得不一樣了,唯一的Unicode字元集對應了三種編碼:UTF-8,UTF-16,UTF-32。如果還是這麼籠統地去稱呼,就很容易搞混了。

為什麼Unicode這麼特殊?

人們弄出新的字元集標準,驅動力無外乎是舊的字元集里的字元不夠用了。

Unicode的目標是統一所有的字元集,囊括所有的字元,所以字元集發展到它這裡就到頭了,再去整什麼新的字元集就沒必要也不應該了。

但如果覺得它現有的編碼方案不太好呢?在不能弄出新的字元集情況下,只能在編碼方面做文章了,於是就有了多個實現,這樣一來傳統的一一對應關係就打破了。

我們嚴格地區分字元集與編碼兩個概念,理由就在這裡。

指定了編碼,它所對應的字元集自然就指定了,編碼才是我們最終要關心的。

Unicode早期與現在的對比


讓我們來看一個圖,它展現了Unicode早期與現在的一些差別:

註:由於歷史方面的原因,你還會在不少地方看到把Unicode和UTF-8混在一塊的情況,這種情況下的Unicode通常就是UTF-16或者是更早的UCS-2編碼,在後面的篇章中我們會進一步分析。

下麵是“記事本程式”保存時的一個截圖,是Unicode的一個不規範使用,這裡的Unicode就是指UTF-16:

image

我們現在說了不少Unicode,由於各種原因,必須承認,在不同的語境下,“Unicode”這個詞有著不同的含義,它可能指:

  • Unicode標準

  • Unicode字元集

  • Unicode的抽象編碼(編號),也即碼點(code point)

  • Unicode的一個具體編碼實現,通常即為變長的UTF-16(16或32位),又或者是更早期的定長16位的UCS-2

關於這些話題在後面的篇章里會做進一步探討。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近在寫winform程式,先來一個簡單的。 讀取特定部分Excel的數據讀取,讀取Excel第30行開始到H列的數據 using System;using System.Collections.Generic;using System.ComponentModel;using System.Dat ...
  • 關於未來 “我要死在火星。在我死去的時候能夠想著人類能有一個美好的未來——有可持續的能源,同時能夠殖民其他的星球來避免人類滅絕的最壞可能。” 官網下載 直接打開官網:[http://www.oracle.com/technetwork/java/javase/downloads/jdk7 downl ...
  • 開始之前: 1. 本博文為原創,轉載請註明出處 2. 作者非電腦科班出身,如有錯誤,請多指正 開始啦啦啦啦啦 從開始接觸spring起,聽到最多的就是Ioc(控制反轉)和AOP(面向切麵編程)啦。Spring的官方文檔給出了這樣一個框架圖(><看起來好深奧~~)。不過本篇要介紹的所謂的控制反轉,就 ...
  • return返回值: python函數都有返回值,函數體內無return,預設返回值None, 函數參數: 1、普通參數 嚴格按照順序,將實際參數賦值給形式參數,一一對應。 例: 2、預設參數 必須放在參數列表的最後,且實際參數可以預設和覆蓋。 例: 3、指定參數 實際參數賦值給指定的形式參數。 例 ...
  • 易語言MySql註冊登錄 用到的主要易語言命令: 連接MySql (, , , , ) 執行SQL語句 (, ) 取記錄集 () 讀欄位值 (, , ) 釋放記錄集 () 斷開MySql () 命令介紹: ①、連接MySql (, , , , ):顧名思義,這條命令是用來連接你的MySql資料庫的, ...
  • 安裝 phoenix framework 安裝 phoenix 很簡單: 安裝之後,mix 的子命令中就多了 phoenix 相關的內容了。 phoenix 工程介紹 接下來,我們創建一個 phoenix 的工程。 phoenix 是個完整的 web 框架,包括 controller,view以及m ...
  • * ResultSet 結果集:封裝了使用JDBC 進行查詢的結果 * 1. 調用Statement 對象的 executeQuery(sql) 方法可以得到結果集 * 2. ResultSet 返回的實際上就是一張數據表,有一個指針指向數據表的第一行的前面, * 可以調用next()方法檢測下一行 ...
  • C 語言基本數據類型:字元型(char)整形(short, int, long)浮點型(float, double) 註:如下類型位元組數指一般情況,不同的平臺會有所不同,具體平臺可以用sizeof 關鍵字測試一下. -2147483648~~2147483647 0~~4294967295 -3.4 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...