Char C#裡面的char,其實就是System.Char類型的別名,它代表一個Unicode字元(是這樣嗎?),占用兩個位元組。 例如:char c = ‘A’; char占用兩個位元組,也就是16位,其實本質上char其實就是16位的無符號整型數值,範圍是0到65535,也就是和無符號short的 ...
Char
C#裡面的char,其實就是System.Char類型的別名,它代表一個Unicode字元(是這樣嗎?),占用兩個位元組。
例如:char c = ‘A’;
char占用兩個位元組,也就是16位,其實本質上char其實就是16位的無符號整型數值,範圍是0到65535,也就是和無符號short的範圍是一樣的。
轉義字元
有一些字元無法通過字面的意思來進行解釋,這時候就可以使用轉義字元。
轉義字元是以 / 開始,後邊跟著一個有特殊意義的字元。
例如:
char newLine = '\n'; 這個表示換行
char backSlash = '\\'; 這個就表示 \
轉義字元的列表如下:
還有\u(\x)這兩個轉義字元可以讓你通過4位16進位的形式來表示任意的Unicode字元,例如:
char copyrightSymbol = '\u00A9'; // ©
char omegaSymbol = '\u03A9'; // Ω
char newLine = '\u000A'; // 換行
轉換
char類型的變數可以隱式的轉換到可容納無符號short類型的數值類型,例如:
字元擴展
char只能代表一個Unicode字元, 其實這句話不太準確。
我們知道Unicode里 65 代表著字母 A,但其實65是A的Unicode代碼點,通常是這樣來表示的 U+0041,16進位的41就是10進位的65。
而看這個例子,德語裡面有個字元:ß,它的UniCode是 U+00DF,但就其本身而言,ß 不是一個字母,ß被認為等價於ss(也就是兩個s),例如fußball就相當於fussball。
而用在字元/字元串比較的時候,就不可以把ß當作一個字元來處理,而是把ß=ss。
而ß所對應的U+00DF這個代碼點就是字元擴展(Character expansion)的一個例子,如果想正確的比較字元/串,那麼這個代碼點就必須先轉化為其它的多個代碼點,這裡就是 U+00DF -> U+0073 + U+0073,也就是ß -> ss,記住,這隻是用於比較,而不是展示。
字元代理
字元代理(char surrogates),和字元擴展正好相反。
字元擴展是指,一個字元代表了多個實際的字元;而字元代理呢,就是使用兩個char的實例來表示一個實際的字元。
字元代理之所以存在,是因為它的範圍太小了(0-65535),所以根本無法代表世界上這麼多語言的字元。實際上Unicode的代碼點是從0到1114111(0x10FFFF),所以16位的存儲遠遠不夠用。
正是因為這點,Unicode UTF16有一個可以表示所有字元的體系,就是使用兩個連續的16位數值來表示,這就叫做代理對(surrogate pairs)。
在這兩個連續的16位數值里,第一個數的範圍是U+D800到U+DBFF(55296到56319),所以如果您在解析字元/串的時候,解析出來的數值正好落在這個範圍里,那麼你就需要把這個char和它後邊的char連在一起進行解析,才能得出真正要表示的字元。
從術語上講,第一個16位數叫做High Surrogate(高代理項),第二個數叫做Low Surrogate(低代理項)。
例如: