再見亂碼：5分鐘讀懂MySQL字元集設置

在MySQL的使用過程中，瞭解字元集、字元序的概念，以及不同設置對數據存儲、比較的影響非常重要。不少同學在日常工作中遇到的“亂碼”問題，很有可能就是因為對字元集與字元序的理解不到位、設置錯誤造成的。本文由淺入深，分別介紹瞭如下內容： 1. 字元集、字元序的基本概念及聯繫 2. MySQL支持的字元... ...

一、內容概述

在MySQL的使用過程中，瞭解字元集、字元序的概念，以及不同設置對數據存儲、比較的影響非常重要。不少同學在日常工作中遇到的“亂碼”問題，很有可能就是因為對字元集與字元序的理解不到位、設置錯誤造成的。

本文由淺入深，分別介紹瞭如下內容：

字元集、字元序的基本概念及聯繫
MySQL支持的字元集、字元序設置級，各設置級別之間的聯繫
server、database、table、column級字元集、字元序的查看及設置
應該何時設置字元集、字元序

二、字元集、字元序的概念與聯繫

在數據的存儲上，MySQL提供了不同的字元集支持。而在數據的對比操作上，則提供了不同的字元序支持。

MySQL提供了不同級別的設置，包括server級、database級、table級、column級，可以提供非常精準的設置。

什麼是字元集、字元序？簡單的來說：

字元集（character set）：定義了字元以及字元的編碼。
字元序（collation）：定義了字元的比較規則。

舉個例子：

有四個字元：A、B、a、b，這四個字元的編碼分別是A = 0, B = 1, a = 2, b = 3。這裡的字元 + 編碼就構成了字元集（character set）。

如果我們想比較兩個字元的大小呢？比如A、B，或者a、b，最直觀的比較方式是採用它們的編碼，比如因為0 < 1，所以 A < B。

另外，對於A、a，雖然它們編碼不同，但我們覺得大小寫字元應該是相等的，也就是說 A == a。

這上面定義了兩條比較規則，這些比較規則的集合就是collation。

同樣是大寫字元、小寫字元，則比較他們的編碼大小；
如果兩個字元為大小寫關係，則它們相等。

三、MySQL支持的字元集、字元序

MySQL支持多種字元集與字元序。

一個字元集對應至少一種字元序（一般是1對多）。
兩個不同的字元集不能有相同的字元序。
每個字元集都有預設的字元序。

上面說的比較抽象，我們看下後面幾個小節就知道怎麼回事了。

1、查看支持的字元集

可以通過以下方式查看MYSQL支持的字元集。

方式一：

mysql> SHOW CHARACTER SET;
+----------+-----------------------------+---------------------+--------+
| Charset  | Description                 | Default collation   | Maxlen |
+----------+-----------------------------+---------------------+--------+
| big5     | Big5 Traditional Chinese    | big5_chinese_ci     |      2 |
| dec8     | DEC West European           | dec8_swedish_ci     |      1 |
...省略

方式二：

mysql> use information_schema;
mysql> select * from CHARACTER_SETS;
+--------------------+----------------------+-----------------------------+--------+
| CHARACTER_SET_NAME | DEFAULT_COLLATE_NAME | DESCRIPTION                 | MAXLEN |
+--------------------+----------------------+-----------------------------+--------+
| big5               | big5_chinese_ci      | Big5 Traditional Chinese    |      2 |
| dec8               | dec8_swedish_ci      | DEC West European           |      1 |
...省略

當使用SHOW CHARACTER SET查看時，也可以加上WHERE或LIKE限定條件。

例子一：使用WHERE限定條件。

mysql> SHOW CHARACTER SET WHERE Charset="utf8";
+---------+---------------+-------------------+--------+
| Charset | Description   | Default collation | Maxlen |
+---------+---------------+-------------------+--------+
| utf8    | UTF-8 Unicode | utf8_general_ci   |      3 |
+---------+---------------+-------------------+--------+
1 row in set (0.00 sec)

例子二：使用LIKE限定條件。

mysql> SHOW CHARACTER SET LIKE "utf8%";
+---------+---------------+--------------------+--------+
| Charset | Description   | Default collation  | Maxlen |
+---------+---------------+--------------------+--------+
| utf8    | UTF-8 Unicode | utf8_general_ci    |      3 |
| utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci |      4 |
+---------+---------------+--------------------+--------+
2 rows in set (0.00 sec)

2、查看支持的字元序

類似的，可以通過如下方式查看MYSQL支持的字元序。

方式一：通過SHOW COLLATION進行查看。

可以看到，utf8字元集有超過10種字元序。通過Default的值是否為Yes，判斷是否預設的字元序。

mysql> SHOW COLLATION WHERE Charset = 'utf8';
+--------------------------+---------+-----+---------+----------+---------+
| Collation                | Charset | Id  | Default | Compiled | Sortlen |
+--------------------------+---------+-----+---------+----------+---------+
| utf8_general_ci          | utf8    |  33 | Yes     | Yes      |       1 |
| utf8_bin                 | utf8    |  83 |         | Yes      |       1 |
...略

方式二：查詢information_schema.COLLATIONS。

mysql> USE information_schema;
mysql> SELECT * FROM COLLATIONS WHERE CHARACTER_SET_NAME="utf8";
+--------------------------+--------------------+-----+------------+-------------+---------+
| COLLATION_NAME           | CHARACTER_SET_NAME | ID  | IS_DEFAULT | IS_COMPILED | SORTLEN |
+--------------------------+--------------------+-----+------------+-------------+---------+
| utf8_general_ci          | utf8               |  33 | Yes        | Yes         |       1 |
| utf8_bin                 | utf8               |  83 |            | Yes         |       1 |
| utf8_unicode_ci          | utf8               | 192 |            | Yes         |       8 |

3、字元序的命名規範

字元序的命名，以其對應的字元集作為首碼，如下所示。比如字元序utf8_general_ci，標明它是字元集utf8的字元序。

更多規則可以參考官方文檔。

MariaDB [information_schema]> SELECT CHARACTER_SET_NAME, COLLATION_NAME FROM COLLATIONS WHERE CHARACTER_SET_NAME="utf8" limit 2; 
+--------------------+-----------------+
| CHARACTER_SET_NAME | COLLATION_NAME  |
+--------------------+-----------------+
| utf8               | utf8_general_ci |
| utf8               | utf8_bin        |
+--------------------+-----------------+
2 rows in set (0.00 sec)

四、server的字元集、字元序

用途：當你創建資料庫，且沒有指定字元集、字元序時，server字元集、server字元序就會作為該資料庫的預設字元集、排序規則。

如何指定：MySQL服務啟動時，可通過命令行參數指定。也可以通過配置文件的變數指定。

server預設字元集、字元序：在MySQL編譯的時候，通過編譯參數指定。

character_set_server、collation_server分別對應server字元集、server字元序。

1、查看server字元集、字元序

分別對應character_set_server、collation_server兩個系統變數。

mysql> SHOW VARIABLES LIKE "character_set_server";
mysql> SHOW VARIABLES LIKE "collation_server";

2、啟動服務時指定

可以在MySQL服務啟動時，指定server字元集、字元序。如不指定，預設的字元序分別為latin1、latin1_swedish_ci

mysqld --character-set-server=latin1 \
       --collation-server=latin1_swedish_ci

單獨指定server字元集，此時，server字元序為latin1的預設字元序latin1_swedish_ci。

mysqld --character-set-server=latin1

3、配置文件指定

除了在命令行參數里指定，也可以在配置文件里指定，如下所示。

[client]
default-character-set=utf8

[mysql]
default-character-set=utf8

[mysqld]
collation-server = utf8_unicode_ci
init-connect='SET NAMES utf8'
character-set-server = utf8

4、運行時修改

例子：運行時修改（重啟後會失效，如果想要重啟後保持不變，需要寫進配置文件里）

mysql> SET character_set_server = utf8 ;

5、編譯時指定預設字元集、字元序

character_set_server、collation_server的預設值，可以在MySQL編譯時，通過編譯選項指定：

cmake . -DDEFAULT_CHARSET=latin1 \
           -DDEFAULT_COLLATION=latin1_german1_ci

五、database的字元集、字元序

用途：指定資料庫級別的字元集、字元序。同一個MySQL服務下的資料庫，可以分別指定不同的字元集/字元序。

1、設置數據的字元集/字元序

可以在創建、修改資料庫的時候，通過CHARACTER SET、COLLATE指定資料庫的字元集、排序規則。

創建資料庫：

CREATE DATABASE db_name
    [[DEFAULT] CHARACTER SET charset_name]
    [[DEFAULT] COLLATE collation_name]

修改資料庫：

ALTER DATABASE db_name
    [[DEFAULT] CHARACTER SET charset_name]
    [[DEFAULT] COLLATE collation_name]

例子：創建資料庫test_schema，字元集設置為utf8，此時預設的排序規則為utf8_general_ci。

CREATE DATABASE `test_schema` DEFAULT CHARACTER SET utf8;

2、查看資料庫的字元集/字元序

有3種方式可以查看資料庫的字元集/字元序。

例子一：查看test_schema的字元集、排序規則。（需要切換預設資料庫）

mysql> use test_schema;
Database changed
mysql> SELECT @@character_set_database, @@collation_database;
+--------------------------+----------------------+
| @@character_set_database | @@collation_database |
+--------------------------+----------------------+
| utf8                     | utf8_general_ci      |
+--------------------------+----------------------+
1 row in set (0.00 sec)

例子二：也可以通過下麵命令查看test_schema的字元集、資料庫（不需要切換預設資料庫）

mysql> SELECT SCHEMA_NAME, DEFAULT_CHARACTER_SET_NAME, DEFAULT_COLLATION_NAME  FROM information_schema.SCHEMATA WHERE schema_name="test_schema";
+-------------+----------------------------+------------------------+
| SCHEMA_NAME | DEFAULT_CHARACTER_SET_NAME | DEFAULT_COLLATION_NAME |
+-------------+----------------------------+------------------------+
| test_schema | utf8                       | utf8_general_ci        |
+-------------+----------------------------+------------------------+
1 row in set (0.00 sec)

例子三：也可以通過查看創建資料庫的語句，來查看字元集。

mysql> SHOW CREATE DATABASE test_schema;
+-------------+----------------------------------------------------------------------+
| Database    | Create Database                                                      |
+-------------+----------------------------------------------------------------------+
| test_schema | CREATE DATABASE `test_schema` /*!40100 DEFAULT CHARACTER SET utf8 */ |
+-------------+----------------------------------------------------------------------+
1 row in set (0.00 sec)

3、database字元集、字元序是怎麼確定的

創建資料庫時，指定了CHARACTER SET或COLLATE，則以對應的字元集、排序規則為準。
創建資料庫時，如果沒有指定字元集、排序規則，則以character_set_server、collation_server為準。

六、table的字元集、字元序

創建表、修改表的語法如下，可通過CHARACTER SET、COLLATE設置字元集、字元序。

CREATE TABLE tbl_name (column_list)
    [[DEFAULT] CHARACTER SET charset_name]
    [COLLATE collation_name]]

ALTER TABLE tbl_name
    [[DEFAULT] CHARACTER SET charset_name]
    [COLLATE collation_name]

1、創建table並指定字元集/字元序

例子如下，指定字元集為utf8，字元序則採用預設的。

CREATE TABLE `test_schema`.`test_table` (
  `id` INT NOT NULL COMMENT '',
  PRIMARY KEY (`id`)  COMMENT '')
DEFAULT CHARACTER SET = utf8;

2、查看table的字元集/字元序

同樣，有3種方式可以查看table的字元集/字元序。

方式一：通過SHOW TABLE STATUS查看table狀態，註意Collation為utf8_general_ci，對應的字元集為utf8。

MariaDB [blog]> SHOW TABLE STATUS FROM test_schema \G;
*************************** 1. row ***************************
           Name: test_table
         Engine: InnoDB
        Version: 10
     Row_format: Compact
           Rows: 0
 Avg_row_length: 0
    Data_length: 16384
Max_data_length: 0
   Index_length: 0
      Data_free: 11534336
 Auto_increment: NULL
    Create_time: 2018-01-09 16:10:42
    Update_time: NULL
     Check_time: NULL
      Collation: utf8_general_ci
       Checksum: NULL
 Create_options: 
        Comment: 
1 row in set (0.00 sec)

方式二：查看information_schema.TABLES的信息。

mysql> USE test_schema;
mysql> SELECT TABLE_COLLATION FROM information_schema.TABLES WHERE TABLE_SCHEMA = "test_schema" AND TABLE_NAME = "test_table";
+-----------------+
| TABLE_COLLATION |
+-----------------+
| utf8_general_ci |
+-----------------+

方式三：通過SHOW CREATE TABLE確認。

mysql> SHOW CREATE TABLE test_table;
+------------+----------------------------------------------------------------------------------------------------------------+
| Table      | Create Table                                                                                                   |
+------------+----------------------------------------------------------------------------------------------------------------+
| test_table | CREATE TABLE `test_table` (
  `id` int(11) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 |
+------------+----------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

3、table字元集、字元序如何確定

假設CHARACTER SET、COLLATE的值分別是charset_name、collation_name。如果創建table時：

明確了charset_name、collation_name，則採用charset_name、collation_name。
只明確了charset_name，但collation_name未明確，則字元集採用charset_name，字元序採用charset_name對應的預設字元序。
只明確了collation_name，但charset_name未明確，則字元序採用collation_name，字元集採用collation_name關聯的字元集。
charset_name、collation_name均未明確，則採用資料庫的字元集、字元序設置。

七、column的字元集、排序

類型為CHAR、VARCHAR、TEXT的列，可以指定字元集/字元序，語法如下：

col_name {CHAR | VARCHAR | TEXT} (col_length)
    [CHARACTER SET charset_name]
    [COLLATE collation_name]

1、新增column並指定字元集/排序規則

例子如下：（創建table類似）

mysql> ALTER TABLE test_table ADD COLUMN char_column VARCHAR(25) CHARACTER SET utf8;

2、查看column的字元集/字元序

例子如下：

mysql> SELECT CHARACTER_SET_NAME, COLLATION_NAME FROM information_schema.COLUMNS WHERE TABLE_SCHEMA="test_schema" AND TABLE_NAME="test_table" AND COLUMN_NAME="char_column";
+--------------------+-----------------+
| CHARACTER_SET_NAME | COLLATION_NAME  |
+--------------------+-----------------+
| utf8               | utf8_general_ci |
+--------------------+-----------------+
1 row in set (0.00 sec)

3、column字元集/排序規則確定

假設CHARACTER SET、COLLATE的值分別是charset_name、collation_name：

如果charset_name、collation_name均明確，則字元集、字元序以charset_name、collation_name為準。
只明確了charset_name，collation_name未明確，則字元集為charset_name，字元序為charset_name的預設字元序。
只明確了collation_name，charset_name未明確，則字元序為collation_name，字元集為collation_name關聯的字元集。
charset_name、collation_name均未明確，則以table的字元集、字元序為準。

八、選擇：何時設置字元集、字元序

一般來說，可以在三個地方進行配置：

創建資料庫的時候進行配置。
mysql server啟動的時候進行配置。
從源碼編譯mysql的時候，通過編譯參數進行配置

1、方式一：創建資料庫的時候進行配置

這種方式比較靈活，也比較保險，它不依賴於預設的字元集/字元序。當你創建資料庫的時候指定字元集/字元序，後續創建table、column的時候，如果不特殊指定，會繼承對應資料庫的字元集/字元序。

CREATE DATABASE mydb
  DEFAULT CHARACTER SET utf8
  DEFAULT COLLATE utf8_general_ci;

2、方式二：mysql server啟動的時候進行配置

可以添加以下配置，這樣mysql server啟動的時候，會對character-set-server、collation-server進行配置。

當你通過mysql client創建database/table/column，且沒有顯示聲明字元集/字元序，那麼就會用character-set-server/collation-server作為預設的字元集/字元序。

另外，client、server連接時的字元集/字元序，還是需要通過SET NAMES進行設置。

[mysqld]
character-set-server=utf8
collation-server=utf8_general_ci

3、方式三：從源碼編譯mysql的時候，通過編譯參數進行設置

編譯的時候如果指定了-DDEFAULT_CHARSET和-DDEFAULT_COLLATION，那麼：

創建database、table時，會將其作為預設的字元集/字元序。
client連接server時，會將其作為預設的字元集/字元序。（不用單獨SET NAMES）

shell> cmake . -DDEFAULT_CHARSET=utf8 \
           -DDEFAULT_COLLATION=utf8_general_ci

九、寫在後面

本文較為詳細地介紹了MySQL中字元集、字元序相關的內容，這部分內容主要針對的是數據的存儲與比較。其實還有很重要的一部分內容還沒涉及：針對連接的字元集、字元序設置。

由於連接的字元集、字元序設置不當導致的亂碼問題也非常多，這部分內容展開來講內容也不少，放在下一篇文章進行講解。

篇幅所限，有些內容沒有細講，感興趣的同學歡迎交流，或者查看官方文檔。如有錯漏，敬請指出。

十、相關鏈接

10.1 Character Set Support
https://dev.mysql.com/doc/refman/5.7/en/charset.html