MYSQL中的COLLATE是什麼?

来源:https://www.cnblogs.com/qcloud1001/archive/2018/11/28/10033364.html
-Advertisement-
Play Games

本文由horstxu發表 在mysql中執行 指令,可以看到一張表的建表語句,example如下: js CREATE TABLE ( bigint(20) unsigned NOT NULL AUTO_INCREMENT, text COLLATE utf8_unicode_ci NOT NULL ...


本文由horstxu發表

在mysql中執行show create table <tablename>指令,可以看到一張表的建表語句,example如下:

CREATE TABLE `table1` (
    `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
    `field1` text COLLATE utf8_unicode_ci NOT NULL COMMENT '欄位1',
    `field2` varchar(128) COLLATE utf8_unicode_ci NOT NULL DEFAULT '' COMMENT '欄位2',
    PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8_unicode_ci;

大部分欄位我們都能看懂,但是今天要討論的是COLLATE關鍵字。這個值後面對應的utf8_unicode_ci是什麼意思呢?面試的時候用這個題目考一考DBA,應該可以難倒一大部分人。

COLLATE是用來做什麼的?

使用phpmyadmin的開發可能會非常眼熟,因為其中的中文表頭已經給出了答案:

imgphpmyadmin截圖

所謂utf8_unicode_ci,其實是用來排序的規則。對於mysql中那些字元類型的列,如VARCHARCHARTEXT類型的列,都需要有一個COLLATE類型來告知mysql如何對該列進行排序和比較。簡而言之,COLLATE會影響到ORDER BY語句的順序,會影響到WHERE條件中大於小於號篩選出來的結果,會影響**DISTINCT****GROUP BY****HAVING**語句的查詢結果。另外,mysql建索引的時候,如果索引列是字元類型,也會影響索引創建,只不過這種影響我們感知不到。總之,凡是涉及到字元類型比較或排序的地方,都會和COLLATE有關

各種COLLATE的區別

COLLATE通常是和數據編碼(CHARSET)相關的,一般來說每種CHARSET都有多種它所支持的COLLATE,並且每種CHARSET都指定一種COLLATE為預設值。例如Latin1編碼的預設COLLATElatin1_swedish_ciGBK編碼的預設COLLATEgbk_chinese_ciutf8mb4編碼的預設值為utf8mb4_general_ci

這裡順便講個題外話,mysql中有utf8utf8mb4兩種編碼,在mysql中請大家忘記**utf8**,永遠使用**utf8mb4**。這是mysql的一個遺留問題,mysql中的utf8最多只能支持3bytes長度的字元編碼,對於一些需要占據4bytes的文字,mysql的utf8就不支持了,要使用utf8mb4才行。

很多COLLATE都帶有_ci字樣,這是Case Insensitive的縮寫,即大小寫無關,也就是說"A"和"a"在排序和比較的時候是一視同仁的。selection * from table1 where field1="a"同樣可以把field1為"A"的值選出來。與此同時,對於那些_cs尾碼的COLLATE,則是Case Sensitive,即大小寫敏感的。

在mysql中使用show collation指令可以查看到mysql所支持的所有COLLATE。以utf8mb4為例,該編碼所支持的所有COLLATE如下圖所示。

imgmysql中和utf8mb4相關的所有COLLATE

圖中我們能看到很多國家的語言自己的排序規則。在國內比較常用的是utf8mb4_general_ci(預設)、utf8mb4_unicode_ciutf8mb4_bin這三個。我們來探究一下這三個的區別:

首先utf8mb4_bin的比較方法其實就是直接將所有字元看作二進位串,然後從最高位往最低位比對。所以很顯然它是區分大小寫的。

utf8mb4_unicode_ciutf8mb4_general_ci對於中文和英文來說,其實是沒有任何區別的。對於我們開發的國內使用的系統來說,隨便選哪個都行。只是對於某些西方國家的字母來說,utf8mb4_unicode_ci會比utf8mb4_general_ci更符合他們的語言習慣一些,general是mysql一個比較老的標準了。例如,德語字母“ß”,在utf8mb4_unicode_ci中是等價於"ss"兩個字母的(這是符合德國人習慣的做法),而在utf8mb4_general_ci中,它卻和字母“s”等價。不過,這兩種編碼的那些微小的區別,對於正常的開發來說,很難感知到。本身我們也很少直接用文字欄位去排序,退一步說,即使這個字母排錯了一兩個,真的能給系統帶來災難性後果麽?從網上找的各種帖子討論來說,更多人推薦使用utf8mb4_unicode_ci,但是對於使用了預設值的系統,也並沒有非常排斥,並不認為有什麼大問題。結論:推薦使用utf8mb4_unicode_ci,對於已經用了utf8mb4_general_ci的系統,也沒有必要花時間改造。

另外需要註意的一點是,從mysql 8.0開始,mysql預設的CHARSET已經不再是Latin1了,改為了utf8mb4參考鏈接),並且預設的COLLATE也改為了utf8mb4_0900_ai_ciutf8mb4_0900_ai_ci大體上就是unicode的進一步細分,0900指代unicode比較演算法的編號( Unicode Collation Algorithm version),ai表示accent insensitive(發音無關),例如e, è, é, ê 和 ë是一視同仁的。相關參考鏈接1相關參考鏈接2

COLLATE設置級別及其優先順序

設置COLLATE可以在示例級別、庫級別、表級別、列級別、以及SQL指定。實例級別的COLLATE設置就是mysql配置文件或啟動指令中的collation_connection系統變數。

庫級別設置COLLATE的語句如下:

CREATE DATABASE <db_name> DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

如果庫級別沒有設置CHARSETCOLLATE,則庫級別預設的CHARSETCOLLATE使用實例級別的設置。在mysql8.0以下版本中,你如果什麼都不修改,預設的CHARSETLatin1,預設的COLLATElatin1_swedish_ci。從mysql8.0開始,預設的CHARSET已經改為了utf8mb4,預設的COLLATE改為了utf8mb4_0900_ai_ci

表級別的COLLATE設置,則是在CREATE TABLE的時候加上相關設置語句,例如:

CREATE TABLE (

……

) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

如果表級別沒有設置CHARSETCOLLATE,則表級別會繼承庫級別的CHARSETCOLLATE

列級別的設置,則在CREATE TABLE中聲明列的時候指定,例如

CREATE TABLE (

`field1` VARCHAR(64) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL DEFAULT '',

……

) ……

如果列級別沒有設置CHARSETCOLATE,則列級別會繼承表級別的CHARSETCOLLATE

最後,你也可以在寫SQL查詢的時候顯示聲明COLLATE來覆蓋任何庫表列的COLLATE設置,不太常用,瞭解即可:

SELECT DISTINCT field1 COLLATE utf8mb4_general_ci FROM table1;

SELECT field1, field2 FROM table1 ORDER BY field1 COLLATE utf8mb4_unicode_ci;

如果全都顯示設置了,那麼優先順序順序是 SQL語句 > 列級別設置 > 表級別設置 > 庫級別設置 > 實例級別設置。也就是說列上所指定的COLLATE可以覆蓋表上指定的COLLATE,表上指定的COLLATE可以覆蓋庫級別的COLLATE。如果沒有指定,則繼承下一級的設置。即列上面沒有指定COLLATE,則該列的COLLATE和表上設置的一樣。

以上就是關於mysql的COLLATE相關知識。不過,在系統設計中,我們還是要儘量避免讓系統嚴重依賴中文欄位的排序結果,在mysql的查詢中也應該儘量避免使用中文做查詢條件。

此文已由作者授權騰訊雲+社區發佈,更多原文請點擊

搜索關註公眾號「雲加社區」,第一時間獲取技術乾貨,關註後回覆1024 送你一份技術課程大禮包!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 到目前為止,我們只考慮了實時系統上的調度。事實上, Linux可以做得更好些。除了支持多個CPU之外,內核也提供其他幾種與調度相關的增強功能,在以後幾節里會論述。但請註意,這些增強功能大大增加了調度器的複雜性,因此我主要考慮簡化的情形,目的在於說明實質性的原理,而不考慮所有的邊界情形和調度中出現的奇 ...
  • 性能指標是什麼? 學習性能優化的第一步,一定是瞭解“性能指標”這個概念。 性能領域的大師布倫丹·格雷格,他所描繪的 Linux 性能工具圖譜: 學習思維導圖,記錄學習位置: ...
  • chown將指定文件的擁有者改為指定的用戶或組,用戶可以是用戶名或者用戶ID;組可以是組名或者組ID;文件是以空格分開的要改變許可權的文件列表,支持通配符。系統管理員經常使用chown命令,在將文件拷貝到另一個用戶的名錄下之後,讓用戶擁有使用該文件的許可權。 一.命令格式: chown [選項]... ...
  • 使用nginx有一段時間了,還是有很多東西不懂的,在這裡做一下自己學習過程中的一些整理,能使自己得到提升。 1、環境:centos7 1511 最小化安裝 2、下載nginx,可以在系統中下載,也可以提前下載好,直接上傳到伺服器,都是可以的。 3、安裝nginx的依賴環境 這裡要重點說明一下,因為我 ...
  • 安裝python3 一、安裝需要編譯的關聯庫 二、下載python3的安裝包 三、解壓、編譯、安裝 四、創建Python3的軟鏈接 五、創建pip3的軟鏈接 創建python3的虛擬環境 一、下載virtualenv 二、創建virtualenv的軟鏈接 三、創建虛擬環境 四、進入虛擬環境 此時的p ...
  • 安裝時我是借鑒 https://blog.csdn.net/xiaohua0877/article/details/78507631 期間遇到幾個問題 鍵盤不好使,解決辦法是重新運行wmware workstation 的安裝程式,選擇更改選項,安裝增強程式。同時修改 虛擬機 -》設置-》選項-》增 ...
  • 新建用戶 創建帶主機名用戶 在MySql中使用CREATE USER語句新建用戶 用戶的格式如下: ‘ 用戶名 ’ @ ‘ 主機名 ’ @後面的’localhost’即為本地的埠。 創建普通用戶 使用舉例: 創建2個新用戶student1和student2,密碼分別是123和456,並且查看新用戶 ...
  • 系統已上線,給客戶修改bug的時候,使用delete語句刪表數據,沒想到庫沒切換成測試庫。誤刪了正式庫的數據,而且一次備份都沒有做過,玩大了 不扯了,進入主題 網上很多方法,都是針對至少有一次備份的情況下進行數據恢復的,沒有備份就基本上只能找數據恢復公司了。本章將通過日誌來恢復誤刪的數據,若是日誌文 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...