背景: 一段明顯的字元串,可能潛伏著看不見 的 幽靈字元。 某些字元 比較常見、常用,比如: \r \n \t 但是,有些 幽靈字元(保守估計 >200~1000個),不僅不常見,而且基本沒價值。 這些幽靈字元,潛伏在 正常字元串中,有的偽裝成空格符,有的直接隱形。 當你要 處理字元串時,這些幽靈字 ...
背景:
一段明顯的字元串,可能潛伏著看不見 的 幽靈字元。
某些字元 比較常見、常用,比如: \r \n \t
但是,有些 幽靈字元(保守估計 >200~1000個),不僅不常見,而且基本沒價值。
這些幽靈字元,潛伏在 正常字元串中,有的偽裝成空格符,有的直接隱形。
當你要 處理字元串時,這些幽靈字元 的 惡意可能就開始顯現 : 部分字元串函數 會因此引發BUG。
PS. 本文看似簡單,實際上好像確實很簡單 —— 百毒相關知識點,可用信息 並不多。
幽靈字元 不常見,即便檫肩而過 往往都沒啥影響 —— 可一旦幽靈字元作惡起來,似乎都只能用 “詭異” 來形容。
舉例 1:
如下代碼,你看得出BUG麽?
//將一個字元串中的 連續空格 替換成 單空格
//【 隱形的幽靈字元 如果介於兩個空格之間,本函數就會發生 死迴圈。】
//【 即:string.IndexOf() 函數忽略了 隱形幽靈字元, 但 string.Replace() 函數卻要求嚴格。】 public static void FormatString(string sValue) { while (sValue.IndexOf(" ") >= 0) sValue = sValue.Replace(" ", " "); return sValue; }
2012年的一個 BUG,幾萬個網頁HTML 格式化,意外引發BUG,我才第一次見識到 幽靈字元 的厲害。
舉例 2:
複製如下SQL腳本,到 SQLServer 中執行一下 —— 幽靈字元 顯形了。
1 SELECT '4 k×4 k'
如何剔除掉幽靈字元:
正則表達式: \s (匹配字元串中的 空白字元,包括 空格 \r \n \t ... 也包括 幽靈字元)
用正則替換幽靈字元:
1 private static readonly Regex m_RegSpace = new Regex(@"\s", RegexOptions.Compiled | RegexOptions.IgnoreCase); 2 /// <summary> 3 /// 用正則表達式替換出 不常見、不常用 的幽靈字元 4 /// </summary> 5 public static string FormatStringByRegex(string str) 6 { 7 return m_RegSpace.Replace(str, m => 8 { 9 if (m.Value == " " || m.Value == "\r" || m.Value == "\n" || m.Value == "\t") return m.Value; 10 return " "; 11 }); 12 }
性能問題:
正則 \s 確實是 萬能的。
但在 某些情況下,正則效率 很低 —— 即便我 啟用了 編譯模式 RegexOptions.Compiled
於是,就有了下麵的 最終代碼,純原生代碼:支持 .Net 2.0 ~ .Net 4.6
經過測試,使用 下麵的 替換函數 比 使用正則 替換 效率快 10倍整。
而且:
正則 \s 無法有效區分:哪些 幽靈字元 是 隱形的,哪些 幽靈字元 是偽裝成空格的。
而我們想要的:隱形的幽靈字元 直接剔除,偽裝成空格的幽靈字元 用 真正的空格代替。
最終代碼:
1 /// <summary> 2 /// 格式化一段字元串, 將字元串中的 非預期的 幽靈字元 刪除. 3 /// <para>本函數將保留 空白符 \r 回車(CR) \n 換行(LF) \t 水平製表(HT) 這幾個常用字元</para> 4 /// <para>其他未知的 幽靈字元 將直接剔除. 極少使用的 幽靈字元 也會被剔除</para> 5 /// </summary> 6 public static string FormatString(string str) 7 { 8 return FormatString(str, false); 9 } 10 /// <summary> 11 /// 格式化一段字元串, 將字元串中的 非預期的 幽靈字元 刪除. 12 /// <para>本函數將保留 空白符 \r 回車(CR) \n 換行(LF) \t 水平製表(HT) 這幾個常用字元</para> 13 /// <para>preserveRare 參數決定如下字元是否保留(true: 保留, false 剔除, 預設 false剔除): \a 響鈴(BEL) \b 退格(BS) \f 換頁(FF) \v 垂直製表(VT) \0 空字元(一般C++標識字元串結束) </para> 14 /// <para>其他根本沒見過的 幽靈字元 將直接剔除.</para> 15 /// </summary> 16 public static string FormatString(string str, bool preserveRare) 17 { 18 if (string.IsNullOrEmpty(str)) return string.Empty; 19 20 StringBuilder sb = new StringBuilder(); 21 foreach (char c in str) 22 { 23 if (c == ' ' || c == '\r' || c == '\n' || c == '\t') { sb.Append(c); continue; } 24 if (c == '\a' || c == '\b' || c == '\f' || c == '\v' || c == '\0') { if (preserveRare) { sb.Append(c); } continue; } //這段代碼感覺有性能問題,但細品之下卻發現:毫無破綻 25 if (!char.IsWhiteSpace(c)) { sb.Append(c); continue; } 26 27 //剩下的 幽靈字元 特殊處理: 28 //經過測試: 0x0 - 0xFFFFFF 的 char 字元中, 幽靈字元 要麼是 控制符, 要麼是分割符. 29 //如果是 分隔符, 我們將其替換成空格 30 //如果是 控制符, 我們將其直接剔除, 31 if (char.IsSeparator(c)) { sb.Append(' '); continue; } 32 //if (char.IsControl(c)) continue; //無意義代碼,不需要執行:剩下的字元 通通過濾掉 33 } 34 35 return sb.ToString(); 36 }
InkFx
2017-11-17 23:46