mysql學習之基礎篇08 UTF8編碼_ZenDei技術網路在線

mysql學習之基礎篇08 UTF8編碼

-Advertisement-

這次我們來說一下在Mysql中的編碼問題：我們知道應用於電腦的最早的字元集是ASCII，它所組成的編碼是ASCII編碼；由於對於其他國家來說它所容納的字元個數比較少，後來就出現了ANSI字元集，它的編碼就是本地編碼，由於各個國家的本地編碼不相同，導致互相不相容，最後就出現了Unicode字元集， ...

這次我們來說一下在Mysql中的編碼問題：

我們知道應用於電腦的最早的字元集是ASCII，它所組成的編碼是ASCII編碼；由於對於其他國家來說它所容納的字元個數比較少，後來就出現了ANSI字元集，它的編碼就是本地編碼，由於各個國家的本地編碼不相同，導致互相不相容，最後就出現了Unicode字元集，它規定全世界通用一張碼表，用4個位元組來編號，但是我們常用的字元集中在前65535個編號里，用兩個位元組就夠了，那麼我們就可以簡化編碼，比如：

unicode用0000 0000 0000 0000 0000 0000 000 0041表示A

而我們可以用0000 0041來表示A

把高位浪費的0值，按照一定的規則捨棄掉，這樣形成的編碼方式是UTF方式，而最著名的就是UTF-8編碼方式。

簡單的形容Unicode與UTF-8 的關係：就像是原文件--->壓縮文件的關係。UTF-8是一種變長的編碼方式，它編碼時所占的位元組如下圖所示：

而GBK則是中國漢字的一套編碼方式

那麼亂碼是如何形成的？

主要有兩點

解碼時與實際編碼不一致（可修複）
傳輸過程中，編碼不一致，導致位元組丟失（不可修複）

連接器的特性：連接客戶端與伺服器

客戶端的字元先發給連接器，連接器選擇一種編碼將其轉換，臨時存儲，然後再次轉換成伺服器需要的編碼，並存儲在伺服器里。

要想不亂碼，需要指定客戶端的編碼，讓連接器不理解錯誤，這樣就不會存入錯誤數據，往回取的時候，我們還要告訴連接器，如果你從伺服器返回，應該返回什麼格式的編碼。

一共是三個參數，客戶端的發送的編碼，連接器使用的編碼，獲取的返回數據的編碼。

舉個例子：

當前的請況是，客戶端GBK，伺服器最終存UTF8

我明確的告訴伺服器：我的客戶端是GBK的：

Set character_set_client=gbk;

再告訴連接器，使用UTF8：

Set character_set_connection=utf8;

再告訴，如果返回值，請返回GBK的結果：

Set character_set_results=gbk;

如果我偏要對方給我返回的數據是UTF8：

Set character_set_results=utf8;

我們可以看到出現了亂碼，但是這些亂碼都是可以修複的

再來看另一種情況：

我先聲明客戶端，連接器，伺服器都是gbk格式：

我們插入一條數據，然後顯示它：

可以看出沒有亂碼；

我們再把連接器的編碼改成latin1：

Set character_set_client=latin1;

然後我們插入數據：

然後我們再顯示它：

可以看到出現了亂碼，而且這種亂碼是不可修複的，latin1小，gbk大，就像大魚過小魚網，丟了塊肉。

因此要想不亂碼，必須使伺服器>=連接器>=客戶端

如果3者都是gbk，那麼就可以簡寫成set names gbk;

我們打開記事本，先輸入一個“聯通”，然後把它保存起來並關閉：

然後我們再次打開它

我們會發現它變成了亂碼。

其實這是因為記事本在打開的時候，它也不知道你用的是什麼編碼，它是靠分析編碼的特點來推測的，如果位元組比較少，就容易推測錯。

推薦鏈接：https://www.bilibili.com/video/av19538278/?p=41

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Linux 多命令語句與重定向

多命令語句 Linux中我們在shell輸入命令一般是一條一條執行，但是我們同樣可以用一行語句寫出多命令，下麵就舉出幾個常見的方法 “;”分號用法方式：command1 ; command2 用;號隔開每個命令, 每個命令按照從左到右的順序,順序執行，彼此之間不關心是否失敗，所有命令都會執行。 ...
Linux安裝前的準備

1、硬碟和分區 1.1 Linux中如何表示硬碟和分區硬碟劃分為主分區、擴展分區和邏輯分區三部分。主分區只有四個；擴展分區可以看成是一個特殊的主分區類型，在擴展分區中還可以建立相應的邏輯分區。主分區一般是用來安裝操作系統。擴展分區用來存儲數據。有個重要的Linux和Unix系統的特點：一 ...
hisi mmz模塊驅動講解

一、概述如圖所示，在海思平臺上將記憶體分為兩個部分：os記憶體和mmz記憶體。os記憶體指：由linux操作系統管理的記憶體；mmz記憶體：由mmz驅動模塊進行管理供媒體業務單獨使用的記憶體，在驅動載入時可以指定該模塊管理記憶體的大小：二、數據結構 1、mmz區域描述符 2、mmb記憶體描述符 hil_media ...
Linux學習筆記（五）Liunx常用命令:壓縮命令

Linux中最常見的5中壓縮格式： zip gz bz2 tar.gz tar.bz2 一、.zip壓縮命令壓縮文件 zip [壓縮文件名] [源文件] 例如： zip zijeak.zip zijeak 註意：linux中不區分文件的尾碼名，但為了人閱讀方便，在建立壓縮文件時，必須帶上壓縮尾碼 ...
linux 命令 - ls（列出目錄內容）

ls - 列出目錄內容語法： ls （選項）（參數）選項： linux下文件的一些文件顏色的含義（預設，顏色在CRT客戶端可以修改）最後說一下linux下文件的一些文件顏色的含義（預設，顏色在CRT客戶端可以修改）綠色 >代表可執行文件，（綠色代表通行證的意思）呵呵紅色 >代表壓縮文件 ...
git操作：刪除倉庫中的文件或目錄

假定當前分支下，abc/123.txt需要從git倉庫中刪除： git rm -r --cached abc/123.txt //刪除abc目錄下的123.txt文件，如果要刪除abc目錄，使用命令：git rm -r --cached abc git commit -m "刪除abc目錄下的12... ...
Linux內核實戰（二）- 操作系統概覽

不知道你有沒有產生過這些疑問：桌面上的圖標到底是啥？憑啥我在滑鼠上一雙擊，就會出來一些不可描述的畫面？都是從哪裡跑出來的？憑什麼我在鍵盤上噼里啪啦地敲，某個位置就會顯示我想要的那些字元？電腦怎麼知道我滑鼠點擊的是這個地方，又是怎麼知道我要輸入的是這個地方？我在鍵盤上點“a”，是誰在顯示器上畫 ...
關於Oracle12c中無scott用戶的問題

我目前預習是通過視頻，學到此處視頻里的老師要登錄scott用戶，而我無法登陸，顯示用戶不存在，雖然在Oracle文件中也可以找到scott.sql文件，但經過網上教程創建用戶後我覺得很麻煩而且沒有成功，最終經過大量查閱後我得出了個人結論：我現在用的是Oracle12c，據我看到的資料是12c應該朝 ...