正則表達式處理xml十六進位異常

来源:http://www.cnblogs.com/xietong/archive/2016/01/18/5138551.html
-Advertisement-
Play Games

自從我們的項目數據層從讀取資料庫改為讀取介面服務後,經常會出現一些類似於的錯誤。我們的數據結構如下所示1 2 ->,C#為正則表達式提供了強大的支持,本課程重點講述在C#環境下使用正則表達式,並能夠學會分析創建屬於自己的正則表達式,學習正則表達式請訪問http://e...


     自從我們的項目數據層從讀取資料庫改為讀取介面服務後,經常會出現一些類似於的錯誤。我們的數據結構如下所示

1    <type><![CDATA[gp]]></type> 
2           <detail><![CDATA[劉?->->,C#為正則表達式提供了強大的支持,本課程重點講述在C#環境下使用正則表達式,並能夠學會分析創建屬於自己的正則表達式,學習正則表達式請訪問http://edu.51cto.com/course/course_id-4664.html]]></detail> 
3   <housepurpose><![CDATA[住宅]]></housepurpose>
介面數據

在用戶輸入的數據中常常有一些小人箭頭之類的特殊符號(由於在www.cnblogs.com/xietong下不支持這些特殊符號,所以讀者在我舉例的數據結構中看不到這些特殊符號),我曾經嘗試匹配這些特殊字元,然而未能找到與之相匹配的unicode代碼區塊,所以採用了匹配正常字元的方式來獲取合法的數據用於xml解析。可以看到我們數據中的字元包括字母數字、各種標點、空白符,據此可以寫出我們的正則表達式"(\w|\p{P}|\s)*"。在RegxTest下測試發現無法匹配“<>=”這些符號,加上這些符號後正則表達式為"(\w|\p{P}|[<>=]|\s)*",經測試,發現可以獲取到所有正常的字元,在c#中代碼如下:

           string content = sb.ToString();
            MatchCollection matches = Regex.Matches(content, @"(\w|\p{P}|[<>=]|\s)*");
            sb = new StringBuilder();
            foreach (Match m in matches)
            {
                sb.Append(m.Value);
            }
            content = sb.ToString();

  在運行之後發現類似異常雖然少了很多,但還是有一部分異常,查看這些異常發現造成這些異常的原因正是存在16進位的字元,數據如下:

1  <shinimgs><![CDATA[http://img6n.soufunimg.com/viewimage/agents/2015_08/24/M09/01/12/wKgEUFXaYrSILIxEAAClop_zcLMAABrYAEF2hoAAKW6316/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_08/24/M01/0C/FA/wKgEKlXaYrWIOQbmAACrV5PpfxIAAURwACqFtkAAKtv885/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_08/24/M04/0C/FA/wKgELFXaYrSIVo9xAAB3vv5fpe8AAURuwMY6CsAAHfW851/120x120.jpg;http://img6n.soufunimg.com/viewimage/agents/2015_08/24/M00/01/12/wKgEUFXaYrSIQR6mAABxJ5OYy6AAABrWQPffz0AAHE_808/120x120.jpg]]></shinimgs> 
2           <xqimgs><![CDATA[http://img7.soufunimg.com/viewimage/agents/2015_05/11/M08/08/BD/wKgELFVQEdqIFbqUAADuyIgGO48AANp_AOJcvcAAO7g917/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_08/24/M01/0C/FA/wKgEK1XaYrWIaxkaAACwvmucOS8AAURwACqwkgAALDW084/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_07/04/M08/0A/E5/wKgEKlWXSA2IXitfAACu3NyaN_wAARBpgNFzlcAAK70576/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_05/11/M08/08/BD/wKgELFVQEd-IJevUAACSMy8yODUAANp_AOZCjMAAJJL453/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_05/11/M09/08/BD/wKgELFVQEd-ISF5YAADAL5IP7McAANqDAHBU9cAAMBH365/120x120.jpg]]></xqimgs> 
View Code

      如果直接將0x式樣的16進位去掉,那麼這些圖片就無法找到正確地址,似乎有些粗魯。為此,我決定將相應的變數先取出來,然後在讀取出來的DataSet中重新對相應欄位賦值。我的代碼如下:

 1    MatchCollection imatches = null;
 2             if (Regex.IsMatch(content, "0x[0-9a-fA-F]+", RegexOptions.IgnoreCase))
 3             {
 4                 Regex regex = new Regex(@"<(?'tag'\w+?)><!\[CDATA\[(?'text'.*?0[Xx].*?)\]\]></\k'tag'>");
 5                 imatches = regex.Matches(content);
 6                 if (imatches != null)
 7                 {
 8                     content = regex.Replace(content, "<${tag}></${tag}>");
 9                 }
10             }
11 
12             System.Xml.XmlDocument xd = new System.Xml.XmlDocument();
13             xd.LoadXml(content);
14             System.Xml.XmlNodeReader xnr = new System.Xml.XmlNodeReader(xd);
15             ds.ReadXml(xnr);
16             xnr.Close();
17             if (imatches != null && imatches.Count > 0 && ds != null && ds.Tables.Count > 0)
18             {
19                 foreach (Match m in imatches)
20                 {
21                     foreach (DataTable table in ds.Tables)
22                     {
23                         if (table.Columns.Contains(m.Groups["tag"].Value))
24                         {
25                             table.Rows[0][m.Groups["tag"].Value] = m.Groups["text"].Value;
26                             break;
27                         }
28                     }
29                 }
30             }

          在上面的代碼中用到了正則的文本替換及分租,如果有不理解的地方可以在http://edu.51cto.com/course/course_id-4664.html中學習一下基本的C#正則表達式知識。

         上面的代碼經測試可以正常運行,但放到那裡呢,雖然在try-catch拋出異常,在異常中處理的話要耗費幾百個時鐘周期,但鑒於問題數據只是一小部分,並且上面的正則表達式的效率並不太高,所以我將上面的代碼放在了catch語句塊中。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、什麼是函數mysql中的函數與存儲過程類似,都是一組SQL集;二、與存儲過程的區別函數可以return值,存儲過程不能直接return,但是有輸出參數可以輸出多個返回值;函數可以嵌入到sql語句中使用,而存儲過程不能;函數一般用於實現較簡單的有針對性的功能(如求絕對值、返回當前時間等),存儲過程...
  • 對於剛接觸電腦的小嫩甚至IT江湖混跡已久的老道,磁碟分區一直是一件很令人頭疼的事情啊!什麼主分區、什麼擴展分區啊,還有邏輯分區、分區表、引導記錄這些,無一不讓人抓耳撓腮。那我來說說主分區、邏輯分區以及擴展分區之間的關係。
  • 1.簡介 1.1 GIT(分散式版本控制系統) Git是一款免費、開源的分散式版本控制系統,用於敏捷高效地處理任何或小或大的項目。 Git是一個開源的分散式版本控制系統,用以有效、高速的處理從很小到非常大的項目版本管理。為了幫助管理 Linux 內核開發而開發的一個開放源碼的版本控制軟體。 ...
  • 轉載:BradyChen:http://www.cnblogs.com/chen1987lei/archive/2010/11/26/1888391.htmlsftp 是一個互動式文件傳輸程式。它類似於 ftp, 但它進行加密傳輸,比FTP有更高的安全性。下邊就簡單介紹一下如何遠程連接主機,進行文件...
  • System Task Manager 任務管理器是一個系統任務進程,在每次RTX內核時鐘發生timer tick interrupt時會運行,也就是每次RTX內核時鐘發生中斷都會運行。這個進程擁有最高的優先順序而不會被其他進程取代。這個進程的基本任務,就是負責調度用戶的任務進程。 基於RTX內核的用...
  • 基於ARM7™ and ARM9™的RTX內核,利用其處理器的一個標準timer來產生RTX內核時鐘。基於Cortex-M的RTX內核,則利用SysTick時鐘。 因為每家基於ARM的處理器,時鐘外設可能不同,所以可以在RTX_Config.c中配置RTX內核時鐘的參數。註意Cortex-M處理器是...
  • 原文鏈接:http://geek.csdn.net/news/detail/444641.首先保證你的電腦有c++編譯環境如果沒有,通過以下指令安裝sudo apt-get install build-essentialsudo apt-get install libgtk2.0-dev2.在~目錄...
  • 如鵬的學習管理系統是使用ASP.net MVC 5開發的,今天一個新版本發佈後網站出現一個Bug,學生在下拉列表中選中的項再載入顯示的時候發現仍然沒被選中。詳細一點說吧:假如有這樣一個Action:public ActionResult Index(){List 竟然第二項沒有處於選中狀態,太詭.....
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...