寫了一個從網頁中抓取信息

来源:http://www.cnblogs.com/fsyz/archive/2017/11/29/7920703.html
-Advertisement-
Play Games

寫了一個從網頁中抓取信息(如最新的頭條新聞,新聞的來源,標題,內容等)的類,本文將介紹如何使用這個類來抓取網頁中需要的信息。本文將以抓取博客園首頁的博客標題和鏈接為例: 上圖顯示的是博客園首頁的DOM樹,顯然只需提取出class為post_item的div,再重中提取出class為titlelnk的 ...


寫了一個從網頁中抓取信息(如最新的頭條新聞,新聞的來源,標題,內容等)的類,本文將介紹如何使用這個類來抓取網頁中需要的信息。本文將以抓取博客園首頁的博客標題和鏈接為例:

image

上圖顯示的是博客園首頁的DOM樹,顯然只需提取出class為post_item的div,再重中提取出class為titlelnk的a標誌即可。這樣的功能可以通過以下函數來實現:

/// <summary>
/// 在文本html的文本查找標誌名為tagName,並且屬性attrName的值為attrValue的所有標誌
/// 例如:FindTagByAttr(html, "div", "class", "demo")
/// 返回所有class為demo的div標誌
/// 前端學習交流QQ群:461593224
/// </summary> public static List<HtmlTag> FindTagByAttr(String html, String tagName, String attrName, String attrValue) { String format = String.Format(@"<{0}\s[^<>]*{1}\s*=\s*(\x27|\x22){2}(\x27|\x22)[^<>]*>", tagName, attrName, attrValue); return FindTag(html, tagName, format); } public static List<HtmlTag> FindTag(String html, String name, String format) { Regex reg = new Regex(format, RegexOptions.IgnoreCase); Regex tagReg = new Regex(String.Format(@"<(\/|)({0})(\s[^<>]*|)>", name), RegexOptions.IgnoreCase); List<HtmlTag> tags = new List<HtmlTag>(); int start = 0; while (true) { Match match = reg.Match(html, start); if (match.Success) { start = match.Index + match.Length; Match tagMatch = null; int beginTagCount = 1; while (true) { tagMatch = tagReg.Match(html, start); if (!tagMatch.Success) { tagMatch = null; break; } start = tagMatch.Index + tagMatch.Length; if (tagMatch.Groups[1].Value == "/") beginTagCount--; else beginTagCount++; if (beginTagCount == 0) break; } if (tagMatch != null) { HtmlTag tag = new HtmlTag(name, match.Value, html.Substring(match.Index + match.Length, tagMatch.Index - match.Index - match.Length)); tags.Add(tag); } else { break; } } else { break; } } return tags; }

  有了以上函數,就可以提取需要的HTML標誌了,要實現抓取,還需要一個下載網頁的函數:

public static String GetHtml(string url)
{
    try
    {
        HttpWebRequest req = HttpWebRequest.Create(url) as HttpWebRequest;
        req.Timeout = 30 * 1000;
        HttpWebResponse response = req.GetResponse() as HttpWebResponse;
        Stream stream = response.GetResponseStream();

        MemoryStream buffer = new MemoryStream();
        Byte[] temp = new Byte[4096];
        int count = 0;
        while ((count = stream.Read(temp, 0, 4096)) > 0)
        {
            buffer.Write(temp, 0, count);
        }

        return Encoding.GetEncoding(response.CharacterSet).GetString(buffer.GetBuffer());
    }
    catch
    {
        return String.Empty;
    }
}
/// 前端學習交流QQ群:461593224

  以下以抓取博客園首頁的文章標題和鏈接為例,介紹如何使用HtmlTag類來抓取網頁信息:

class Program
{
    static void Main(string[] args)
    {
        String html = HtmlTag.GetHtml("http://www.cnblogs.com");
        List<HtmlTag> tags = HtmlTag.FindTagByAttr(html, "div", "id", "post_list");
        if (tags.Count > 0)
        {
            List<HtmlTag> item_tags = tags[0].FindTagByAttr("div", "class", "post_item");
            foreach (HtmlTag item_tag in item_tags)
            {
                List<HtmlTag> a_tags = item_tag.FindTagByAttr("a", "class", "titlelnk");
                if (a_tags.Count > 0)
                {
                    Console.WriteLine("標題:{0}", a_tags[0].InnerHTML);
                    Console.WriteLine("鏈接:{0}", a_tags[0].GetAttribute("href"));
                    Console.WriteLine("");
                }
            }
        }
    }
}

  

運行結果如下:

image

 

歡迎學習前端的同學一起學習

前端學習交流QQ群:461593224


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • HTML5樣式、鏈接和表格HTML5列表<ol> 有序列表<ul> 無序列表<li> 列表項 <dl> 列表<dt> 列表項<dd> 描述 1.無序列表 使用<ul>、<li> 屬性:disc、circle、square2.有序列表 使用<ol>、<li> 屬性:A、a、I、i、start3.嵌套列 ...
  • css3選擇器是在css2.0的基礎上的修改創新。他增加了一些UI元素狀態偽類選擇器、結構偽類選擇器、屬性選擇器等。 ...
  • 知識點一: CSS概念:CSS 指層疊樣式表 (Cascading Style Sheets)(級聯樣式表) Css是用來美化html標簽的,相當於頁面化妝。 知識點二: 選擇器格式與部分屬性: 寫法: 選擇器是一個選擇(一/多個)標簽的過程。 對應的屬性與值表: Width:20px; 寬 Hei ...
  • Vue2自定義指令改變DOM值後未刷新data中綁定屬性的值. ...
  • 知識點一:HTML Hyper Text Markup Language 超文本標記語言。 HTML標準結構: 尾碼名:Html與htm是一樣的, 尾碼名不能決定文件格式,只能決定打開文件的方式。 HTML標簽的分類: 基礎標簽: 知識點二: 路徑: 相對路徑: 相對於文件本身出發的路徑,如果在當前 ...
  • 在編寫HTML頁面時,需要用到"<"、">"、"空格"等符號,直接輸入這些符號時,會錯誤的把它們與標記混在一起,非常不利於編碼。 那麼就需要把這些字元進行轉義,以另一種方式抒寫,以相同的形式展現。 在HTML中,這些字元可稱為HTML Entity,即HTML 字元實體。一個HTML Entity... ...
  • 在學習廖雪峰前輩的JavaScript教程中,遇到了一些需要註意的點,因此作為學習筆記列出來,提醒自己註意! 如果大家有需要,歡迎訪問前輩的博客https://www.liaoxuefeng.com/學習。 ES6標準新增了一種新的函數:Arrow Function(箭頭函數)。 更簡潔的語法 我們 ...
  • 不說別的,先上效果: 用簡單的div配合偽元素,即可‘畫出’這幅六邊形圖片,原理是三個相同寬高的div,通過定位旋轉拼合成一個六邊形,再利用背景圖層疊,形成視覺上的一張整圖。下麵咱們一步一步來實現。 (1)那麼第一步,當然是繪製容器,容器是一個有寬高的div。 繪製之前,必須明白一個問題,那就是,等 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...