CentOS7.5修改字元集

来源:https://www.cnblogs.com/lldsn/archive/2018/08/06/9370132.html
-Advertisement-
Play Games

亂碼產生的原因: 電腦中儲存的信息都是用二進位數表示的;而我們在屏幕上看到的英文、漢字等字元是二進位數轉換之後的結果。通俗的說,按照何種規則將字元存儲在電腦中,如'a'用什麼表示,稱為"編碼";反之,將存儲在電腦中的二進位數解析顯示出來,稱為"解碼",如同密碼學中的加密和解密。在解碼過程中,如 ...


亂碼產生的原因:

電腦中儲存的信息都是用二進位數表示的;而我們在屏幕上看到的英文、漢字等字元是二進位數轉換之後的結果。通俗的說,按照何種規則將字元存儲在電腦中,如'a'用什麼表示,稱為"編碼";反之,將存儲在電腦中的二進位數解析顯示出來,稱為"解碼",如同密碼學中的加密和解密。在解碼過程中,如果使用了錯誤的解碼規則,則導致'a'解析成'b'或者亂碼。

字元集(Charset):是一個系統支持的所有抽象字元的集合。字元是各種文字和符號的總稱,包括各國家文字、標點符號、圖形符號、數字等。

字元編碼(Character Encoding):是一套法則,使用該法則能夠對自然語言的字元的一個集合(如字母表或音節表),與其他東西的一個集合(如號碼或電脈衝)進行配對。即在符號集合與數字系統之間建立對應關係,它是信息處理的一項基本技術。通常人們用符號集合(一般情況下就是文字)來表達信息。而以電腦為基礎的信息處理系統則是利用元件(硬體)不同狀態的組合來存儲和處理信息的。元件不同狀態的組合能代表數字系統的數字,因此字元編碼就是將符號轉換為電腦可以接受的數字系統的數,稱為數字代碼。

UTF-8:

  • UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼(定長碼),也是一種首碼碼。它可以用來表示Unicode標準中的任何字元,且其編碼中的第一個位元組仍與ASCII相容,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他存儲或傳送文字的應用中,優先採用的編碼。互聯網工程工作小組(IETF)要求所有互聯網協議都必須支持UTF-8編碼。

    UTF-8使用一至四個位元組為每個字元編碼:

  1. 128個US-ASCII字元只需一個位元組編碼(Unicode範圍由U+0000至U+007F)。
  2. 帶有附加符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要二個位元組編碼(Unicode範圍由U+0080至U+07FF)。
  3. 其他基本多文種平面(BMP)中的字元(這包含了大部分常用字)使用三個位元組編碼。
  4. 其他極少使用的Unicode輔助平面的字元使用四位元組編碼。

    在處理經常會用到的ASCII字元方面非常有效。在處理擴展的拉丁字元集方面也不比UTF-16差。對於中文字元來說,比UTF-32要好。同時,(在這一條上你得相信我,因為我不打算給你展示它的數學原理。)由位操作的天性使然,使用UTF-8不再存在位元組順序的問題了。一份以utf-8編碼的文檔在不同的電腦之間是一樣的比特流。

    總體來說,在Unicode字元串中不可能由碼點數量決定顯示它所需要的長度,或者顯示字元串之後在文本緩衝區中游標應該放置的位置;組合字元、變寬字體、不可列印字元和從右至左的文字都是其歸因。所以儘管在UTF-8字元串中字元數量與碼點數量的關係比UTF-32更為複雜,在實際中很少會遇到有不同的情形。

    優點

  • UTF-8是ASCII的一個超集。因為一個純ASCII字元串也是一個合法的UTF-8字元串,所以現存的ASCII文本不需要轉換。為傳統的擴展ASCII字元集設計的軟體通常可以不經修改或很少修改就能與UTF-8一起使用。
  • 使用標準的面向位元組的排序常式對UTF-8排序將產生與基於Unicode代碼點排序相同的結果。(儘管這隻有有限的有用性,因為在任何特定語言或文化下都不太可能有仍可接受的文字排列順序。)
  • UTF-8和UTF-16都是可擴展標記語言文檔的標準編碼。所有其它編碼都必須通過顯式或文本聲明來指定。
  • 任何面向位元組的字元串搜索演算法都可以用於UTF-8的數據(只要輸入僅由完整的UTF-8字元組成)。但是,對於包含字元記數的正則表達式或其它結構必須小心。
  • UTF-8字元串可以由一個簡單的演算法可靠地識別出來。就是,一個字元串在任何其它編碼中表現為合法的UTF-8的可能性很低,並隨字元串長度增長而減小。舉例說,字元值C0,C1,F5至FF從來沒有出現。為了更好的可靠性,可以使用正則表達式來統計非法過長和替代值(可以查看W3 FAQ: Multilingual Forms上的驗證UTF-8字元串的正則表達式)。

    缺點

    因為每個字元使用不同數量的位元組編碼,所以尋找串中第N個字元是一個O(N)複雜度的操作 — 即,串越長,則需要更多的時間來定位特定的字元。同時,還需要位變換來把字元編碼成位元組,把位元組解碼成字元。

配置字元集:

CentOS6.x 字元集配置文件在/etc/syscconfig/i18n;

CentOS7.x 字元集配置文件在/etc/locale.conf;

查看已經安裝的語言包:

# locale -a

aa_DJ
aa_DJ.iso88591
aa_DJ.utf8
aa_ER

...

...

安裝中文字元集:

CentOS6.x:

#yum groupinstall chinese-support

註意CentO S7與6不一樣;

#yum install kde-l10n-Chinese

#yum reinstall glibc-common

查看當前的字元集:

方法一:

# echo $LANG
zh_CN.UTF-8

方法二:

# locale
LANG=zh_CN.UTF-8
LC_CTYPE="zh_CN.UTF-8"
LC_NUMERIC="zh_CN.UTF-8"
LC_TIME="zh_CN.UTF-8"
LC_COLLATE="zh_CN.UTF-8"# locale
LANG=zh_CN.UTF-8
LC_CTYPE="zh_CN.UTF-8"
LC_NUMERIC="zh_CN.UTF-8"
LC_TIME="zh_CN.UTF-8"
LC_COLLATE="zh_CN.UTF-8"
LC_MONETARY="zh_CN.UTF-8"
LC_MESSAGES="zh_CN.UTF-8"
LC_PAPER="zh_CN.UTF-8"
LC_NAME="zh_CN.UTF-8"
LC_ADDRESS="zh_CN.UTF-8"
LC_TELEPHONE="zh_CN.UTF-8"
LC_MEASUREMENT="zh_CN.UTF-8"
LC_IDENTIFICATION="zh_CN.UTF-8"
LC_ALL=
LC_MONETARY="zh_CN.UTF-8"
LC_MESSAGES="zh_CN.UTF-8"
LC_PAPER="zh_CN.UTF-8"
LC_NAME="zh_CN.UTF-8"
LC_ADDRESS="zh_CN.UTF-8"
LC_TELEPHONE="zh_CN.UTF-8"
LC_MEASUREMENT="zh_CN.UTF-8"ENTIFICATION="zh_CN.UTF-8"
LC_A

安裝完成之後通過vi命令修改配置文件:

這個是由中文字元集改為英文字元集,沒辦法中文字元集還是存在亂碼問題;

#vi /etc/locale.conf
# LANG="zh_CN.UTF-8"
LANG="en_US.UTF-8"

改完後需要使用source命令是配置文件生效:

#source /etc/locale.conf

檢查:

# locale
LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=

臨時改變字元集命令:

#LANG="想要使用的字元集"

#LANG="LANG=en_US.UTF-8" 

也可以把字元集的環境變數寫到profile

# vim /etc/profile

註意這個需要利用#source /etc/profile使文件生效。

根據用戶設置字元集,需要更改用戶家目錄下的 .bash_profile ,在最後一行添加字元集就可以了

# vim .bash_profile 

LANG="LANG=en_US.UTF-8"

使用遠程連接工具時註意把字元集調試成與系統字元集一致。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 第1章 階段總結 1.1 一、請詳細描述linux系統從打開主機電源到進入登錄界面整個過程的流程。 1.2 二、我想在/data/oldboyedu目錄下麵創建 一個oldboy.txt文件 [root@oldboyedu ~]# cd /data/oldboyedu -bash: cd: /dat ...
  • 語法:location [ = | ~ | ~* | ^~ ] uri { …一組命令… } http://nginx.org/en/docs/http/ngx_http_core_module.html#location location / {}:表示對/uri/目錄及其子目錄下的所有文件都匹配 ...
  • Apache 1. 基本操作 | 解釋 | 命令 | | | | | 安裝 | yum install httpd | | 啟動 | service httpd start | | 停止 | service httpd stop | 2. 啟動完成後 查看進程是否存在: 此時在本機Win地址欄輸入 ...
  • 操作系統通過系統調用為運行於其上的進程提供服務。 當用戶態進程發起一個系統調用, CPU 將切換到 內核態 並開始執行一個 內核函數 。 內核函數負責響應應用程式的要求,例如操作文件、進行網路通訊或者申請記憶體資源等。 原文地址: "https://learn linux.readthedocs.io ...
  • 1 編譯安裝QEMU 首先下載qemu for mini2440,直接打包下載 http://repo.or.cz/w/qemu/mini2440.git/snapshot/HEAD.tar.gz 解壓後,進入源代碼目錄中: sudo apt-get install zlib1g-dev sudo ...
  • scp 幫助命令: man scp scp功能: 下載遠程文件或者目錄到本地, 如果想上傳或者想下載目錄,最好的辦法是採用tar壓縮一下,是最明智的選擇. 從遠程主機 下載東西到 本地電腦 拷貝文件命令 scp user@host:/path/file /localpath 即 scp 用戶名@IP ...
  • 日常運維中,我們會存在每日備份的現象,針對這一種情況可能會要求監控文件是否存在。比較笨拙的方法就是登錄上伺服器到某個路徑下查看文件是否存在,除此之外,我們可以利用shell或者python來編寫監控文件是否存在的腳本來減少工作量。當然,作為一個同樣是小白的我,編寫的腳本可以略顯簡單,希望大神們可以指 ...
  • 對於任何一個進程,在啟動時,都會打開三個流:stdin(標準輸入), stdout(標準輸出), stderr(標準錯誤輸出)。Stdout,stderr是process與Display之間,stdin是process與keyboard之間。也就是說系統的標準輸入輸出,是進程與設備間交流的橋梁。 但 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...