分析過程 windows下的Notepad記事本軟體在另存的時候可以選擇保存的編碼方式。 我們可以在記事本中輸入同樣的文本,如“a嚴”。 ANSI方式我們用UtralEdit查看二進位信息可以看到: 這裡 對應的ANSI編碼為 , 對應的ANSI編碼為 。 Unicode BE編碼下的二進位信息: ...
分析過程
windows下的Notepad記事本軟體在另存的時候可以選擇保存的編碼方式。
我們可以在記事本中輸入同樣的文本,如“a嚴”。
ANSI方式我們用UtralEdit查看二進位信息可以看到:
這裡a
對應的ANSI編碼為61
,嚴
對應的ANSI編碼為D1 CF
。
Unicode BE編碼下的二進位信息:
開頭的2個位元組為FE FF
,a
的二進位表現為00 61
,嚴
的二進位表現為4E 25
。
那麼我們再來看下Unicode編碼方式(Unicode LE)的二進位信息。
我們可以看到開頭的2個位元組為FF FE
,a
的二進位表現為61 00
,嚴
的二進位表現為25 4E
。
我們再來看下UTF-8的二進位信息:
開頭3個位元組為EF BB BF
,a
的二進位表現為61
,嚴
的二進位表現為E4 B8 A5
。
這裡要特別註意的是如果是UTF-8 without BOM編碼是沒有頭三個位元組的。我們需要按照UTF-8的編碼規範去判斷字元編碼是否符合UTF-8的編碼規範。
檢測策略
- 如果2個位元組是0xFF 0xFE,則以Unicode(LE)的方式讀取
- 如果2個位元組是0xFE 0xFF,則以Unicode BE的方式讀取
- 如果前2個位元組是0xEF 0xBB,那麼判斷第3個位元組是不是0xBF,如果是的話就以UTF-8的方式進行讀取。
- 判斷是否符合UTF-8的編碼規範,如果符合就以UTF-8的方式進行讀取
- 如果以上都不是,則以ANSI的方式進行讀取。
代碼實現
首先,首先一個enum class作為檢測的返回值
enum class Encode { ANSI = 1, UNICODE_LE, UNICODE_BE, UTF8, UTF8_NOBOM };
然後我們可以根據上面總結的規律進行判斷。
Encode DetectEncode(const PBYTE pBuffer, long length)
{
if (pBuffer[0] == 0xFF && pBuffer[1] == 0xFE)
{
return Encode::UNICODE_LE;
}
else if (pBuffer[0] == 0xFE && pBuffer[1] == 0xFF)
{
return Encode::UNICODE_BE;
}
else if (pBuffer[0] == 0xEF && pBuffer[1] == 0xBB && pBuffer[2] == 0xBF)
{
return Encode::UTF8;
}
else if (CheckUnicodeWithoutBOM(pBuffer, length))
{
return Encode::UTF8_NOBOM;
}
else
{
return Encode::ANSI;
}
}
下麵附上如何檢測UTF-8 without BOM的代碼實現。
BOOL CheckUnicodeWithoutBOM(const PBYTE pText, long length)
{
int i;
DWORD nBytes = 0;
UCHAR chr;
BOOL bAllAscii = TRUE;
for (i = 0; i < length; i++)
{
chr = *(pText + i);
if ((chr & 0x80) != 0)
bAllAscii = FALSE;
if (nBytes == 0)
{
if (chr >= 0x80)
{
if (chr >= 0xFC && chr <= 0xFD)
nBytes = 6;
else if (chr >= 0xF8)
nBytes = 5;
else if (chr >= 0xF0)
nBytes = 4;
else if (chr >= 0xE0)
nBytes = 3;
else if (chr >= 0xC0)
nBytes = 2;
else
{
return FALSE;
}
nBytes--;
}
}
else
{
if ((chr & 0xC0) != 0x80)
{
return FALSE;
}
nBytes--;
}
}
if (nBytes > 0)
{
return FALSE;
}
if (bAllAscii)
{
return FALSE;
}
return TRUE;
}
參考資料
- The Notepad encoding detection issues keep coming up
- 簡析Windows Notepad里可選的字元編碼
- 字元編碼筆記:ASCII,Unicode和UTF-8
- 字元集和字元編碼(Charset & Encoding)
- Some code to detect charset (for XML, in Java)
- How can I detect the encoding/codepage of a text file