2017-10-10 都市傳說: "部分"中文出現亂碼

来源:https://www.cnblogs.com/program-in-chinese/archive/2019/03/04/partial_encoding_issue_for_Chinese_text.html
-Advertisement-
Play Games

"知乎原鏈, 作者亦本人" 事情起源於項目另一開發者在中文Windows下構建時遇到的 "部分中文出現亂碼問題" . 當時很不解的是, 為什麼會只有部分出現亂碼. 第一感覺是, 如果編碼轉換不正確, 要麼全亂碼, 要麼全正確. 為何會"部分"出現亂碼. 初步分析 "在此" . 簡單說, 就是在轉碼過 ...


知乎原鏈, 作者亦本人

事情起源於項目另一開發者在中文Windows下構建時遇到的部分中文出現亂碼問題.

當時很不解的是, 為什麼會只有部分出現亂碼. 第一感覺是, 如果編碼轉換不正確, 要麼全亂碼, 要麼全正確. 為何會"部分"出現亂碼.

初步分析在此. 簡單說, 就是在轉碼過程中, Java會把某些它不認識的部分直接用某個值代替. 至於為何不預設保留原數據, 是個好的考古研究課題.

示例如下(除了"開始檢", 其他都亂碼了):

編碼 原字1 原字2 原字3 原字4 原字5 原字6
原字
UTF8表示 e5 bc 80 e5 a7 8b e6 a3 80 e6 9f a5 e2 80 a6 e2 80 a6
轉為GBK後 e5 bc 3f e5 a7 8b e6 a3 80 e6 9f a5 e2 3f a6 e2 3f 3f
轉回UTF8 �? �?� �??

網上很多資源提到字元數是奇數會有問題, 這是沒錯. 但實際上即使偶數也可能會有問題. 上面的轉換過程中, 80不是合法GBK字元, 就被替換成3f. 而替換過後再轉回UTF8當然就掛了.

這個問題里的插件就是把輸出字元串指定編碼成了UTF8格式的數據, 但輸出/解碼時又用了系統預設的編碼格式(GBK). 詳見 GBK<->UTF8 互轉問題: Maven checkstyle輸出亂碼 · Issue #26 · program-in-chinese/overview, zh-cn ,,,, cmd gbk encode · Issue #3569 · checkstyle/checkstyle.

個人覺得這種轉碼問題是除了亞洲/非洲之外的開發者很容易忽視的. UTF8的字元除了亞洲(包括中日韓)和非洲語言的字元用三位元組數據表示外, 其他多數語言的字元都是用單位元組或雙位元組. 來源). 這些UTF8中三位元組的字元和GBK之類的雙位元組碼轉碼時會更容易出問題.

在調查過程中, 還發現了其他一些類似疑問, 比如UTF-8編碼,部分中文正常,部分為亂碼的問題?-CSDN論壇.

直覺是也是類似問題, 但想用編碼互轉的方式重現未果, 參考上面的例子試了幾種2次轉碼, 都沒有重現. JDBC連接MySQL拋出異常信息亂碼 - insist的專欄 - CSDN博客提到了CP1252編碼, 又經過幾次嘗試, 才試出了這個過程: "utf-8"->"windows-1252"->"iso-8859-1"->"utf-8".

階段總結一下, 亂碼問題的緣由都是編碼互轉. 全部亂碼, 部分亂碼都可能. 隨著國外代碼庫/軟體的編碼方式更多地使用UTF8, 類似第二個問題的可能會變少, 但類似第一個的UTF8<->GBK互轉的問題也許會存在很長一段時間.


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • align-content 和 align-items : 1:共同點:它們對齊方向為交叉軸 2:不同點:align-content 應用於為 多行 而 align-items:應用於單行。 單行對齊例子: 多行對齊例子 ...
  • js中有三個改變this指針的方法,分別是 apply,call,bind。很多人只知道能改變的this,但是具體的適用場景不是太清楚。我也是遇到坑後不斷的實踐發現了區別。 call ,apply方法: 在Food類中,因為使用了call改變類Product的類的this執向。所以這個時候在Prod ...
  • 高可用 負載均衡(負載均衡演算法) 反向代理 服務隔離 服務限流 服務降級(自動優雅降級) 失效轉移 超時重試(代理超時、容器超時、前端超時、中間件超時、資料庫超時、NoSql超時) 回滾機制(上線回滾、資料庫版本回滾、事務回滾) 高併發 應用緩存 HTTP緩存 多級緩存 分散式緩存 連接池 非同步併發 ...
  • 在上一篇的-負載均衡Robbin中,我們簡單講解到負債均衡的演算法和策略。負載均衡就是分發請求流量到不同的伺服器,以減小伺服器的壓力和訪問效率,但是當負載均衡的某個伺服器或是服務掛掉之後,那麼程式會出現問題麽?接下來Hystrix將會講解 1.1.簡介 Hystix,即熔斷器。 主頁:https:// ...
  • 前幾天刷朋友圈的時候,看到一段話: 如果現在我是傻逼,那麼我現在不管怎麼努力,也還是傻逼,因為我現在的傻逼是由以前決定的,現在努力,是為了讓以後的自己不再傻逼 。話糙理不糙,如果妄想現在努力一下,馬上就不再傻逼,那是不可能的,需要積累,需要沉澱,才能慢慢的不再傻逼。 好了,雞湯喝完。 今天我們的內容 ...
  • 定義:在基類中定義一個操作中的演算法的骨架,而將一些步驟延遲到子類中。模板方法使得子類可以不改變一個演算法的結構即可重定義該演算法的某些特定步驟。 可以理解為將不變的行為放在父類中,會發生變化的行為在子類中實現,這樣可以避免子類中出現大量重覆的代碼。也就是說當子類中的方法混合了不變和可變的行為,我們通過模 ...
  • 1. 第二款抓包工具Charles安裝與使用 Charles和Fiddler一樣,也是一款抓包工具,比Fiddler界面更加清晰,支持多平臺 1.1 官方網址 https://www.charlesproxy.com/ 1.2 下載地址 Charles工具下載地址:https://www.charl ...
  • 概論: '/*'註釋內容的開始,'*/'註釋內容的結束 預處理指令 # include "studio.h" “studio.h”文件定義了很多輸入輸出功能 *.h 頭文件 *.c c源程式文件 main 函數 void mian() void代表函數不需要返回值,不需要將結果遞交給上一級程式 每個 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...