C# 將html文本轉化為文本內容方法TextNoHTML

-Advertisement-

不記得在哪看過這個，挺實用的 ...

不記得在哪看過這個，挺實用的

/// <summary>
/// 將html文本轉化為 文本內容方法TextNoHTML
/// </summary>
/// <param name="Htmlstring">HTML文本值</param>
/// <returns></returns>
public string TextNoHTML(string Htmlstring)
{
    //刪除腳本   
    Htmlstring = Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>", "", RegexOptions.IgnoreCase);
    //刪除HTML   
    Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"([/r/n])[/s]+", "", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "/", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", "   ", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "/xa1", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "/xa2", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "/xa3", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "/xa9", RegexOptions.IgnoreCase);
    Htmlstring = Regex.Replace(Htmlstring, @"&#(/d+);", "", RegexOptions.IgnoreCase);
    //替換掉 < 和 > 標記
    Htmlstring = Htmlstring.Replace("<", "");
    Htmlstring = Htmlstring.Replace(">", "");
    Htmlstring = Htmlstring.Replace("\r\n", "");
    Htmlstring = Htmlstring.Replace("\r", "");
    Htmlstring = Htmlstring.Replace("\n", "");
    //返回去掉html標記的字元串
    return Htmlstring;
}

/// <summary>  
/// 獲取Img的路徑  
/// </summary>  
/// <param name="htmlText">Html字元串文本</param>  
/// <returns>以數組形式返回圖片路徑</returns>  
public static string[] GetHtmlImageUrlList(string htmlText)
{
    Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);
    //新建一個matches的MatchCollection對象 保存 匹配對象個數(img標簽)  
    MatchCollection matches = regImg.Matches(htmlText);
    int i = 0;
    string[] sUrlList = new string[matches.Count];
    //遍歷所有的img標簽對象  
    foreach (Match match in matches)
    {
        //獲取所有Img的路徑src,並保存到數組中  
        sUrlList[i++] = match.Groups["imgUrl"].Value;
    }
    return sUrlList;
}

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

VopSdk一個高逼格微信公眾號開發SDK：自動化生產（裝逼模式開啟）

VopSdk一個高逼格微信公眾號開發SDK(源碼下載) VopSdk一個高逼格微信公眾號開發SDK：自動化生產（裝逼模式開啟）針對第一版，我們搞了第二版本，老規矩先定個目標。一我們的目標 a、移除PayExcute，統一執行入口，目前只保留一個入口Excute b、序列化特性統一，目前只用設置 ...
ORM概念

ORM概念: 指對象結構和資料庫架構間的映射，對象和資料庫架構有一定的映射關係，讓程式員可以不必編寫sql ...
WPF 簡易手風琴 (ListBox+Expander)

概述之前聽說很多大神的成長之路,幾乎都有個習慣——寫博文，可以有效的對項目進行總結、從而提高開發的經驗。所以初學WPF的我想試試,順便提高一下小學作文的能力。O(∩_∩)O哈哈~ 讀萬卷書不如行萬里路，實踐是最好的導師！最近在學習WPF,也嘗試著做了一些小Demo,但並沒有真正的使用WPF的開發模 ...
日期時間選擇器插件flatpickr

前言：在網頁上需要輸入時間的時候，我們可以用HTML5的inputl中的date類型。但是如下入所示，有些瀏覽器不支持。flatpickr這個小插件可以解決這個問題。 1.flatpickr日期時間選擇器插件的github地址為：https://chmln.github.io/flatpickr/。 ...
Log4net的簡單使用

首先添加log4net的引用，可以使用VS的Nuget下載 1.配置Web.config文件在configuration節點下配置configSections中的section 2.在configuration節點下添加log4net節點後臺寫日誌時：至此，就完成了 ...
不能在此路徑中使用此配置節。如果在父級別上鎖定了該節，便會出現這種情況。鎖定是預設設置的(overrideModeDefault="Deny")，或者是通過包含 overrideMode="Deny" 或舊有的 allowOverride="false" 的位置標記明確設置的。

問題：不能在此路徑中使用此配置節。如果在父級別上鎖定了該節，便會出現這種情況。鎖定是預設設置的(overrideModeDefault="Deny")，或者是通過包含 overrideMode="Deny" 或舊有的 allowOverride="false" 的位置標記明確設置的。原因：可能是在 ...
H5網站接入Paypal支付介面

寫本文章的目的是為了記錄工作中遇到的問題，方便以後遇到可以迅速解決問題 paypal支付介面實現由幾種方法，我使用的是REST API 所以在這裡值介紹這種方法的使用我們使用vs的Nuget下載Paypal的dll 首先需要配置Web.config文件 1.在configuration節點下配置c ...
《物聯網框架ServerSuperIO教程》-19.設備驅動和OPC Client支持mysql、oracle、sqlite、sqlserver的持久化。v3.6.4版本發佈

ServerSuperIO支持設備驅動和OPC Client採集的數據信息按標簽集合寫入mysql、oracle、sqlserver和sqlite資料庫。現在還支持寫入實時資料庫，例如：edna、golden和corert等。同時支持實時資料庫和關係資料庫主要考慮項目環境和支撐的能力。本質上還是... ...

C# 將html文本轉化為 文本內容方法TextNoHTML

C# 將html文本轉化為文本內容方法TextNoHTML