網頁信息抓取

来源:http://www.cnblogs.com/fsyz/archive/2017/11/23/7886355.html
-Advertisement-
Play Games

寫了一個從網頁中抓取信息(如最新的頭條新聞,新聞的來源,標題,內容等)的類,本文將介紹如何使用這個類來抓取網頁中需要的信息。本文將以抓取博客園首頁的博客標題和鏈接為例: 上圖顯示的是博客園首頁的DOM樹,顯然只需提取出class為post_item的div,再重中提取出class為titlelnk的 ...


寫了一個從網頁中抓取信息(如最新的頭條新聞,新聞的來源,標題,內容等)的類,本文將介紹如何使用這個類來抓取網頁中需要的信息。本文將以抓取博客園首頁的博客標題和鏈接為例:

image

上圖顯示的是博客園首頁的DOM樹,顯然只需提取出class為post_item的div,再重中提取出class為titlelnk的a標誌即可。這樣的功能可以通過以下函數來實現:

/// <summary>
/// 在文本html的文本查找標誌名為tagName,並且屬性attrName的值為attrValue的所有標誌
/// 例如:FindTagByAttr(html, "div", "class", "demo")
/// 返回所有class為demo的div標誌
/// 前端學習交流QQ群:461593224
/// </summary> public static List<HtmlTag> FindTagByAttr(String html, String tagName, String attrName, String attrValue) { String format = String.Format(@"<{0}\s[^<>]*{1}\s*=\s*(\x27|\x22){2}(\x27|\x22)[^<>]*>", tagName, attrName, attrValue); return FindTag(html, tagName, format); } public static List<HtmlTag> FindTag(String html, String name, String format) { Regex reg = new Regex(format, RegexOptions.IgnoreCase); Regex tagReg = new Regex(String.Format(@"<(\/|)({0})(\s[^<>]*|)>", name), RegexOptions.IgnoreCase); List<HtmlTag> tags = new List<HtmlTag>(); int start = 0; while (true) { Match match = reg.Match(html, start); if (match.Success) { start = match.Index + match.Length; Match tagMatch = null; int beginTagCount = 1; while (true) { tagMatch = tagReg.Match(html, start); if (!tagMatch.Success) { tagMatch = null; break; } start = tagMatch.Index + tagMatch.Length; if (tagMatch.Groups[1].Value == "/") beginTagCount--; else beginTagCount++; if (beginTagCount == 0) break; } if (tagMatch != null) { HtmlTag tag = new HtmlTag(name, match.Value, html.Substring(match.Index + match.Length, tagMatch.Index - match.Index - match.Length)); tags.Add(tag); } else { break; } } else { break; } } return tags; }

  有了以上函數,就可以提取需要的HTML標誌了,要實現抓取,還需要一個下載網頁的函數:

public static String GetHtml(string url)
{
    try
    {
        HttpWebRequest req = HttpWebRequest.Create(url) as HttpWebRequest;
        req.Timeout = 30 * 1000;
        HttpWebResponse response = req.GetResponse() as HttpWebResponse;
        Stream stream = response.GetResponseStream();

        MemoryStream buffer = new MemoryStream();
        Byte[] temp = new Byte[4096];
        int count = 0;
        while ((count = stream.Read(temp, 0, 4096)) > 0)
        {
            buffer.Write(temp, 0, count);
        }

        return Encoding.GetEncoding(response.CharacterSet).GetString(buffer.GetBuffer());
    }
    catch
    {
        return String.Empty;
    }
}
/// 前端學習交流QQ群:461593224

  以下以抓取博客園首頁的文章標題和鏈接為例,介紹如何使用HtmlTag類來抓取網頁信息:

class Program
{
    static void Main(string[] args)
    {
        String html = HtmlTag.GetHtml("http://www.cnblogs.com");
        List<HtmlTag> tags = HtmlTag.FindTagByAttr(html, "div", "id", "post_list");
        if (tags.Count > 0)
        {
            List<HtmlTag> item_tags = tags[0].FindTagByAttr("div", "class", "post_item");
            foreach (HtmlTag item_tag in item_tags)
            {
                List<HtmlTag> a_tags = item_tag.FindTagByAttr("a", "class", "titlelnk");
                if (a_tags.Count > 0)
                {
                    Console.WriteLine("標題:{0}", a_tags[0].InnerHTML);
                    Console.WriteLine("鏈接:{0}", a_tags[0].GetAttribute("href"));
                    Console.WriteLine("");
                }
            }
        }
    }
}

  

運行結果如下:

image

 

歡迎學習前端的同學一起學習

前端學習交流QQ群:461593224


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • CSS樣式表全稱叫Cascading Style Sheets是一種用來表現HTML文件樣式的語言,是Web前端開發中一定會用到的排版語言,那麼Ngui中css的靈感就來自於此。與其說是靈感還不如果說是借鑒並通過精簡而來,因為開發這個框架的初衷效率一直就是最重的目標,其次才是使用體驗 ...
  • 前言 前段時間接手了一個shi一樣的項目,各種代碼觸目驚心。一個文件里,一會兒4個空格縮進,一會兒2個空格縮進;各種magic number;函數形參a,b,c…… 當然這篇也不打算吐槽,也不想說什麼代碼可讀性的問題,只是想借這個機會談一下維護這樣的代碼時候用到的一個小技巧。 函數劫持 第一次看到這 ...
  • 跨域與JSONP ==JSONP是解決跨域問題的一種常見方式== ==跨域問題==:因為瀏覽器有同源策略,所以當不同域間進行數據交互的時候就會出現跨域問題 ···· 同源策略:只有在同協議,同功能變數名稱,同埠的情況下才能進行數據交互 ···· JSONP的原理:可以利用script標簽(==會使用回調函 ...
  • 當前頁有多個tab,如果都有scroll事件, 先解綁$(window).off('scroll') 再執行scroll就不可以了,多個標簽就不會互相干擾; 給你們個例子: //標簽切換 $('.tab>a').on('click',function(){ $(this).addClass('Cur ...
  • 之前項目中 後臺傳值 然後賦給單選input 在網上找了好久,現在有時間了,整理一下 ,方便以後有人會用到。 $('radio[name="sex"][value'"+sexval+"']').prop('checked','checked'); 其中 sexval就是獲取到的值 ; 這樣就可以賦值 ...
  • 當使用$(document).on('click','.class',function(){}) 時,有時會觸發兩次甚至多次點擊事件,阻止冒泡發現沒有用,那麼可以這樣先解除點擊事件,再觸發點擊事件,就好了, $(document).off('click','.class').on('click',' ...
  • 全選&單選 //全選 //單選 //單選 //單選 //單選 //全選 var $checke_q = $(".quan"); //全選按鈕 var $checke_d = $(".dan"); //單選按鈕 $checke_q.click(function() { var that = this; ...
  • 什麼是多終端?多終端就是包括了我們的電腦,手機,手持式移動設備比如ipad等。因為各類設備的顯示屏幕大小不一,解析度不一,最佳可視效果的橫豎設置也不一樣,所以多終端瀏覽器相容主要就是學習如何讓我們的項目在多終端上呈現相同的顯示效果,它主要涉及到兩塊知識點。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...