『實用』過濾字元串中的幽靈字元

来源:http://www.cnblogs.com/shuxiaolong/archive/2017/11/17/Ghost_Char.html
-Advertisement-
Play Games

背景: 一段明顯的字元串,可能潛伏著看不見 的 幽靈字元。 某些字元 比較常見、常用,比如: \r \n \t 但是,有些 幽靈字元(保守估計 >200~1000個),不僅不常見,而且基本沒價值。 這些幽靈字元,潛伏在 正常字元串中,有的偽裝成空格符,有的直接隱形。 當你要 處理字元串時,這些幽靈字 ...


背景:

一段明顯的字元串,可能潛伏著看不見 的 幽靈字元。

某些字元 比較常見、常用,比如: \r  \n  \t  

但是,有些 幽靈字元(保守估計 >200~1000個),不僅不常見,而且基本沒價值。

這些幽靈字元,潛伏在 正常字元串中,有的偽裝成空格符,有的直接隱形。

當你要 處理字元串時,這些幽靈字元 的 惡意可能就開始顯現 : 部分字元串函數 會因此引發BUG。

 

PS. 本文看似簡單,實際上好像確實很簡單 —— 百毒相關知識點,可用信息 並不多。

       幽靈字元 不常見,即便檫肩而過 往往都沒啥影響 —— 可一旦幽靈字元作惡起來,似乎都只能用 “詭異” 來形容。

 

舉例 1:

如下代碼,你看得出BUG麽?

//將一個字元串中的 連續空格 替換成 單空格 
//【 隱形的幽靈字元 如果介於兩個空格之間,本函數就會發生 死迴圈。】
//【 即:string.IndexOf() 函數忽略了 隱形幽靈字元, 但 string.Replace() 函數卻要求嚴格。】
public static void FormatString(string sValue) { while (sValue.IndexOf(" ") >= 0) sValue = sValue.Replace(" ", " "); return sValue; }

2012年的一個 BUG,幾萬個網頁HTML 格式化,意外引發BUG,我才第一次見識到 幽靈字元 的厲害。

 

舉例 2:

複製如下SQL腳本,到 SQLServer 中執行一下 —— 幽靈字元 顯形了。

1    SELECT '4  k×4  k' 

 

如何剔除掉幽靈字元:

正則表達式: \s   (匹配字元串中的 空白字元,包括 空格 \r \n \t ... 也包括 幽靈字元)

 

用正則替換幽靈字元:

 1         private static readonly  Regex m_RegSpace = new Regex(@"\s", RegexOptions.Compiled | RegexOptions.IgnoreCase);
 2         /// <summary>
 3         /// 用正則表達式替換出 不常見、不常用 的幽靈字元
 4         /// </summary>
 5         public static string FormatStringByRegex(string str)
 6         {
 7             return m_RegSpace.Replace(str, m =>
 8             {
 9                 if (m.Value == " " || m.Value == "\r" || m.Value == "\n" || m.Value == "\t") return m.Value;
10                 return " ";
11             });
12         }

 

性能問題:

正則 \s 確實是 萬能的。

但在 某些情況下,正則效率 很低 —— 即便我 啟用了 編譯模式  RegexOptions.Compiled

 

於是,就有了下麵的 最終代碼,純原生代碼:支持 .Net 2.0 ~ .Net 4.6

經過測試,使用 下麵的 替換函數 比 使用正則 替換 效率快 10倍整。 

而且:

正則 \s 無法有效區分:哪些 幽靈字元 是 隱形的,哪些 幽靈字元 是偽裝成空格的。

而我們想要的:隱形的幽靈字元 直接剔除,偽裝成空格的幽靈字元 用 真正的空格代替。

 

最終代碼:

 1         /// <summary>
 2         /// 格式化一段字元串, 將字元串中的 非預期的 幽靈字元 刪除.
 3         /// <para>本函數將保留 空白符 \r 回車(CR) \n 換行(LF) \t 水平製表(HT) 這幾個常用字元</para>
 4         /// <para>其他未知的 幽靈字元 將直接剔除. 極少使用的 幽靈字元 也會被剔除</para>
 5         /// </summary>
 6         public static string FormatString(string str)
 7         {
 8             return FormatString(str, false);
 9         }
10         /// <summary>
11         /// 格式化一段字元串, 將字元串中的 非預期的 幽靈字元 刪除.
12         /// <para>本函數將保留 空白符 \r 回車(CR) \n 換行(LF) \t 水平製表(HT) 這幾個常用字元</para>
13         /// <para>preserveRare 參數決定如下字元是否保留(true: 保留, false 剔除, 預設 false剔除): \a 響鈴(BEL) \b 退格(BS) \f 換頁(FF) \v 垂直製表(VT) \0 空字元(一般C++標識字元串結束) </para>
14         /// <para>其他根本沒見過的 幽靈字元 將直接剔除.</para>
15         /// </summary>
16         public static string FormatString(string str, bool preserveRare)
17         {
18             if (string.IsNullOrEmpty(str)) return string.Empty;
19 
20             StringBuilder sb = new StringBuilder();
21             foreach (char c in str)
22             {
23                 if (c == ' ' || c == '\r' || c == '\n' || c == '\t') { sb.Append(c); continue; }
24                 if (c == '\a' || c == '\b' || c == '\f' || c == '\v' || c == '\0') { if (preserveRare) { sb.Append(c); } continue; }  //這段代碼感覺有性能問題,但細品之下卻發現:毫無破綻
25                 if (!char.IsWhiteSpace(c)) { sb.Append(c); continue; }
26 
27                 //剩下的 幽靈字元 特殊處理:
28                 //經過測試: 0x0 - 0xFFFFFF 的 char 字元中, 幽靈字元 要麼是 控制符, 要麼是分割符.
29                 //如果是 分隔符, 我們將其替換成空格
30                 //如果是 控制符, 我們將其直接剔除, 
31                 if (char.IsSeparator(c)) { sb.Append(' '); continue; }
32                 //if (char.IsControl(c)) continue; //無意義代碼,不需要執行:剩下的字元 通通過濾掉
33             }
34 
35             return sb.ToString();
36         }

 

 

                                                                                                                                                                                      InkFx

                                                                                                                                                                              2017-11-17 23:46

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、解析Linux應用軟體安裝包通常Linux應用軟體的安裝包有三種:1) tar包,如software-1.2.3-1.tar.gz。它是使用UNIX系統的打包工具tar打包的。2) rpm包,如software-1.2.3-1.i386.rpm。它是RedHat Linux提供的一種包封裝格式。 ...
  • 1. yum install squid2. vi /etc/squid/squid.conf 將http_access deny all 中deny 改為allow,http_port後面的是埠號,預設為3128。可改可不改。3. service squid restart4. 如果有防火牆, ...
  • 1.1.1 chrony簡介 Chrony是一個開源的自由軟體,它能保持系統時鐘與時鐘伺服器(NTP)同步,讓時間保持精確。 它由兩個程式組成:chronyd和chronyc。 chronyd是一個後臺運行的守護進程,用於調整內核中運行的系統時鐘和時鐘伺服器同步。它確定電腦增減時間的比率,並對此進 ...
  • 1、安裝Office2007以上版本。(如安裝的是Office2007需安裝SaveAsPDFandXPS.exe組件) 2、確認網站在IIS內使用的登錄用戶。(如圖所示用戶為IUSR,下麵操作以此用戶為例) 3、打開運行視窗,執行comexp.msc -32 ,打開32位的組件服務。 4、分別設置 ...
  • arch/x86/boot/header.S --> _start --> calll main arch/x86/boot/main.c --> main -- > go_to_protected_mode arch/x86/boot/pm.c --> go_to_protected_mode - ...
  • [20171115]ZEROCONF ROUTE.txt--//如果你檢查linux伺服器的網路配置,就可以發現如下一條路由:# route -n | egrep "169.254|Destination"Destination Gateway Genmask Flags Metric Ref Us ...
  • 總項目流程圖,詳見http://www.cnblogs.com/along21/p/7435612.html 實驗一:實現反向代理負載均衡且動靜分離 1、環境準備: 機器名稱 IP配置 服務角色 備註 nginx VIP:172.17.11.11 反向代理伺服器 開啟代理功能 設置監控,調度 rs0 ...
  • 一.序言 本資料是Trevor Martin編寫的《The Designers Guide to the Cortex-M Processor Family》的摘要,並得到Elsevier的再版許可。查詢更多細節,請到本資料尾部進階章節。 本資料著力於介紹RTX,RTX可運行在基於Cortex-M構 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...