字元集與編碼01--charset vs encoding

来源:http://www.cnblogs.com/TwoWaterLee/archive/2016/08/30/5823548.html
-Advertisement-
Play Games

聲明:此文章轉載自 http://my.oschina.net/goldenshaw/blog/304493 許多時候,字元集與編碼這兩個概念常被混為一談,但兩者是有差別的,作為深入理解的第一步,首先要明確: 字元集與字元集編碼是兩個不同層面的概念 charset是character set的簡寫, ...


聲明:此文章轉載自 http://my.oschina.net/goldenshaw/blog/304493

 

許多時候,字元集與編碼這兩個概念常被混為一談,但兩者是有差別的,作為深入理解的第一步,首先要明確:

字元集字元集編碼是兩個不同層面的概念


  • charset是character set的簡寫,即字元集

  • encoding是charset encoding的簡寫,即字元集編碼,簡稱編碼

與介面及介面實現的對比

可以把這兩者與介面介面實現做個對比:

從這裡可以很清楚地看到,

  1. 編碼是依賴於字元集的,就像代碼中的介面實現依賴於介面一樣;

  2. 一個字元集可以有多個編碼實現,就像一個介面可以有多個實現類一樣。

具體例子及規範用法

可以簡單看兩個例子,一個自於html文件,用的是charset:

<meta http-equiv="content-type" content="text/html;charset=utf-8">

另一個來自於xml文件,用的是encoding:

<?xml version="1.0" encoding="UTF-8"?>

哪一種用法更規範呢?顯然是後者,它更加準確地區分了字元集與編碼的概念。

“charset=utf-8”容易讓人誤解為存在一種叫“UTF-8”的字元集,但實際上,無論是UTF-8還是UTF-16,UTF-32都是對同一種字元集的不同編碼實現而已。

為什麼要嚴格區分字元集編碼這兩個概念?


字元集編碼一對一的情形

有很多的字元編碼方案,一個字元集只有唯一一個編碼實現,兩者是一一對應的。比如GB2312,這種情況,無論你怎麼去稱呼它們,比如“GB2312編碼”,“GB2312字元集”,說來說去其實都是一個東西,可能它本身就沒有特意去做什麼區分,所以無論怎麼說都不會錯。

為什麼一對一是一種普遍的情況呢?

我們以GB2312為例,GB=Guo Biao=國標=國家標準,標準出來本來就為了統一,你一個標準弄出N個編碼實現來,你讓人家用哪個呢?

字元集編碼一對多的情形

事情到了Unicode這裡,變得不一樣了,唯一的Unicode字元集對應了三種編碼:UTF-8,UTF-16,UTF-32。如果還是這麼籠統地去稱呼,就很容易搞混了。

為什麼Unicode這麼特殊?

人們弄出新的字元集標準,驅動力無外乎是舊的字元集里的字元不夠用了。

Unicode的目標是統一所有的字元集,囊括所有的字元,所以字元集發展到它這裡就到頭了,再去整什麼新的字元集就沒必要也不應該了。

但如果覺得它現有的編碼方案不太好呢?在不能弄出新的字元集情況下,只能在編碼方面做文章了,於是就有了多個實現,這樣一來傳統的一一對應關係就打破了。

我們嚴格地區分字元集與編碼兩個概念,理由就在這裡。

指定了編碼,它所對應的字元集自然就指定了,編碼才是我們最終要關心的。

Unicode早期與現在的對比


讓我們來看一個圖,它展現了Unicode早期與現在的一些差別:

註:由於歷史方面的原因,你還會在不少地方看到把Unicode和UTF-8混在一塊的情況,這種情況下的Unicode通常就是UTF-16或者是更早的UCS-2編碼,在後面的篇章中我們會進一步分析。

下麵是“記事本程式”保存時的一個截圖,是Unicode的一個不規範使用,這裡的Unicode就是指UTF-16:

image

我們現在說了不少Unicode,由於各種原因,必須承認,在不同的語境下,“Unicode”這個詞有著不同的含義,它可能指:

  • Unicode標準

  • Unicode字元集

  • Unicode的抽象編碼(編號),也即碼點(code point)

  • Unicode的一個具體編碼實現,通常即為變長的UTF-16(16或32位),又或者是更早期的定長16位的UCS-2

關於這些話題在後面的篇章里會做進一步探討。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近在寫winform程式,先來一個簡單的。 讀取特定部分Excel的數據讀取,讀取Excel第30行開始到H列的數據 using System;using System.Collections.Generic;using System.ComponentModel;using System.Dat ...
  • 關於未來 “我要死在火星。在我死去的時候能夠想著人類能有一個美好的未來——有可持續的能源,同時能夠殖民其他的星球來避免人類滅絕的最壞可能。” 官網下載 直接打開官網:[http://www.oracle.com/technetwork/java/javase/downloads/jdk7 downl ...
  • 開始之前: 1. 本博文為原創,轉載請註明出處 2. 作者非電腦科班出身,如有錯誤,請多指正 開始啦啦啦啦啦 從開始接觸spring起,聽到最多的就是Ioc(控制反轉)和AOP(面向切麵編程)啦。Spring的官方文檔給出了這樣一個框架圖(><看起來好深奧~~)。不過本篇要介紹的所謂的控制反轉,就 ...
  • return返回值: python函數都有返回值,函數體內無return,預設返回值None, 函數參數: 1、普通參數 嚴格按照順序,將實際參數賦值給形式參數,一一對應。 例: 2、預設參數 必須放在參數列表的最後,且實際參數可以預設和覆蓋。 例: 3、指定參數 實際參數賦值給指定的形式參數。 例 ...
  • 易語言MySql註冊登錄 用到的主要易語言命令: 連接MySql (, , , , ) 執行SQL語句 (, ) 取記錄集 () 讀欄位值 (, , ) 釋放記錄集 () 斷開MySql () 命令介紹: ①、連接MySql (, , , , ):顧名思義,這條命令是用來連接你的MySql資料庫的, ...
  • 安裝 phoenix framework 安裝 phoenix 很簡單: 安裝之後,mix 的子命令中就多了 phoenix 相關的內容了。 phoenix 工程介紹 接下來,我們創建一個 phoenix 的工程。 phoenix 是個完整的 web 框架,包括 controller,view以及m ...
  • * ResultSet 結果集:封裝了使用JDBC 進行查詢的結果 * 1. 調用Statement 對象的 executeQuery(sql) 方法可以得到結果集 * 2. ResultSet 返回的實際上就是一張數據表,有一個指針指向數據表的第一行的前面, * 可以調用next()方法檢測下一行 ...
  • C 語言基本數據類型:字元型(char)整形(short, int, long)浮點型(float, double) 註:如下類型位元組數指一般情況,不同的平臺會有所不同,具體平臺可以用sizeof 關鍵字測試一下. -2147483648~~2147483647 0~~4294967295 -3.4 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...