2017-10-10 都市傳說: "部分"中文出現亂碼

-Advertisement-

"知乎原鏈, 作者亦本人" 事情起源於項目另一開發者在中文Windows下構建時遇到的 "部分中文出現亂碼問題" . 當時很不解的是, 為什麼會只有部分出現亂碼. 第一感覺是, 如果編碼轉換不正確, 要麼全亂碼, 要麼全正確. 為何會"部分"出現亂碼. 初步分析 "在此" . 簡單說, 就是在轉碼過 ...

知乎原鏈, 作者亦本人

事情起源於項目另一開發者在中文Windows下構建時遇到的部分中文出現亂碼問題.

當時很不解的是, 為什麼會只有部分出現亂碼. 第一感覺是, 如果編碼轉換不正確, 要麼全亂碼, 要麼全正確. 為何會"部分"出現亂碼.

初步分析在此. 簡單說, 就是在轉碼過程中, Java會把某些它不認識的部分直接用某個值代替. 至於為何不預設保留原數據, 是個好的考古研究課題.

示例如下(除了"開始檢", 其他都亂碼了):

編碼	原字1	原字2	原字3	原字4	原字5	原字6
原字	開	始	檢	查	…	…
UTF8表示	e5 bc 80	e5 a7 8b	e6 a3 80	e6 9f a5	e2 80 a6	e2 80 a6
轉為GBK後	e5 bc 3f	e5 a7 8b	e6 a3 80	e6 9f a5	e2 3f a6	e2 3f 3f
轉回UTF8	�?	開	始	檢	�?�	�??

網上很多資源提到字元數是奇數會有問題, 這是沒錯. 但實際上即使偶數也可能會有問題. 上面的轉換過程中, 80不是合法GBK字元, 就被替換成3f. 而替換過後再轉回UTF8當然就掛了.

這個問題里的插件就是把輸出字元串指定編碼成了UTF8格式的數據, 但輸出/解碼時又用了系統預設的編碼格式(GBK). 詳見 GBK<->UTF8 互轉問題: Maven checkstyle輸出亂碼 · Issue #26 · program-in-chinese/overview, zh-cn ,,,, cmd gbk encode · Issue #3569 · checkstyle/checkstyle.

個人覺得這種轉碼問題是除了亞洲/非洲之外的開發者很容易忽視的. UTF8的字元除了亞洲(包括中日韓)和非洲語言的字元用三位元組數據表示外, 其他多數語言的字元都是用單位元組或雙位元組. 來源). 這些UTF8中三位元組的字元和GBK之類的雙位元組碼轉碼時會更容易出問題.

在調查過程中, 還發現了其他一些類似疑問, 比如UTF-8編碼，部分中文正常，部分為亂碼的問題？-CSDN論壇.

直覺是也是類似問題, 但想用編碼互轉的方式重現未果, 參考上面的例子試了幾種2次轉碼, 都沒有重現. JDBC連接MySQL拋出異常信息亂碼 - insist的專欄 - CSDN博客提到了CP1252編碼, 又經過幾次嘗試, 才試出了這個過程: "utf-8"->"windows-1252"->"iso-8859-1"->"utf-8".

階段總結一下, 亂碼問題的緣由都是編碼互轉. 全部亂碼, 部分亂碼都可能. 隨著國外代碼庫/軟體的編碼方式更多地使用UTF8, 類似第二個問題的可能會變少, 但類似第一個的UTF8<->GBK互轉的問題也許會存在很長一段時間.

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

align-content 與 align-items 區別

align-content 和 align-items ： 1：共同點：它們對齊方向為交叉軸 2：不同點：align-content 應用於為多行而 align-items:應用於單行。單行對齊例子：多行對齊例子 ...
apply,call,bind區別

js中有三個改變this指針的方法，分別是 apply，call，bind。很多人只知道能改變的this，但是具體的適用場景不是太清楚。我也是遇到坑後不斷的實踐發現了區別。 call ，apply方法：在Food類中，因為使用了call改變類Product的類的this執向。所以這個時候在Prod ...
架構必備辭彙

高可用負載均衡（負載均衡演算法）反向代理服務隔離服務限流服務降級（自動優雅降級）失效轉移超時重試（代理超時、容器超時、前端超時、中間件超時、資料庫超時、NoSql超時）回滾機制（上線回滾、資料庫版本回滾、事務回滾）高併發應用緩存 HTTP緩存多級緩存分散式緩存連接池非同步併發 ...
SpringCloud之初識Hystrix熔斷器 ----- 程式的保護機制

在上一篇的-負載均衡Robbin中,我們簡單講解到負債均衡的演算法和策略。負載均衡就是分發請求流量到不同的伺服器,以減小伺服器的壓力和訪問效率,但是當負載均衡的某個伺服器或是服務掛掉之後,那麼程式會出現問題麽?接下來Hystrix將會講解 1.1.簡介 Hystix，即熔斷器。主頁：https:// ...
CAS、原子操作類的應用與淺析及Java8對其的優化

前幾天刷朋友圈的時候，看到一段話：如果現在我是傻逼，那麼我現在不管怎麼努力，也還是傻逼，因為我現在的傻逼是由以前決定的，現在努力，是為了讓以後的自己不再傻逼。話糙理不糙，如果妄想現在努力一下，馬上就不再傻逼，那是不可能的，需要積累，需要沉澱，才能慢慢的不再傻逼。好了，雞湯喝完。今天我們的內容 ...
設計模式 - 模板方法模式

定義：在基類中定義一個操作中的演算法的骨架，而將一些步驟延遲到子類中。模板方法使得子類可以不改變一個演算法的結構即可重定義該演算法的某些特定步驟。可以理解為將不變的行為放在父類中，會發生變化的行為在子類中實現，這樣可以避免子類中出現大量重覆的代碼。也就是說當子類中的方法混合了不變和可變的行為，我們通過模 ...
Python爬蟲入門教程 44-100 Charles的安裝與使用-手機APP爬蟲部分

1. 第二款抓包工具Charles安裝與使用 Charles和Fiddler一樣，也是一款抓包工具，比Fiddler界面更加清晰，支持多平臺 1.1 官方網址 https://www.charlesproxy.com/ 1.2 下載地址 Charles工具下載地址：https://www.charl ...
C語言基礎

概論： '/*'註釋內容的開始，'*/'註釋內容的結束預處理指令 # include "studio.h" “studio.h”文件定義了很多輸入輸出功能 *.h 頭文件 *.c c源程式文件 main 函數 void mian() void代表函數不需要返回值，不需要將結果遞交給上一級程式每個 ...