網頁信息抓取_ZenDei技術網路在線

網頁信息抓取

-Advertisement-

寫了一個從網頁中抓取信息（如最新的頭條新聞，新聞的來源，標題，內容等）的類，本文將介紹如何使用這個類來抓取網頁中需要的信息。本文將以抓取博客園首頁的博客標題和鏈接為例：上圖顯示的是博客園首頁的DOM樹，顯然只需提取出class為post_item的div，再重中提取出class為titlelnk的 ...

寫了一個從網頁中抓取信息（如最新的頭條新聞，新聞的來源，標題，內容等）的類，本文將介紹如何使用這個類來抓取網頁中需要的信息。本文將以抓取博客園首頁的博客標題和鏈接為例：

上圖顯示的是博客園首頁的DOM樹，顯然只需提取出class為post_item的div，再重中提取出class為titlelnk的a標誌即可。這樣的功能可以通過以下函數來實現：

/// <summary>
/// 在文本html的文本查找標誌名為tagName,並且屬性attrName的值為attrValue的所有標誌
/// 例如：FindTagByAttr(html, "div", "class", "demo")
/// 返回所有class為demo的div標誌
/// 前端學習交流QQ群：461593224
/// </summary>
public static List<HtmlTag> FindTagByAttr(String html, String tagName, String attrName, String attrValue)
{
    String format = String.Format(@"<{0}\s[^<>]*{1}\s*=\s*(\x27|\x22){2}(\x27|\x22)[^<>]*>", tagName, attrName, attrValue);
    return FindTag(html, tagName, format);
}

public static List<HtmlTag> FindTag(String html, String name, String format)
{
    Regex reg = new Regex(format, RegexOptions.IgnoreCase);
    Regex tagReg = new Regex(String.Format(@"<(\/|)({0})(\s[^<>]*|)>", name), RegexOptions.IgnoreCase);

    List<HtmlTag> tags = new List<HtmlTag>();
    int start = 0;

    while (true)
    {
        Match match = reg.Match(html, start);
        if (match.Success)
        {
            start = match.Index + match.Length;
            Match tagMatch = null;
            int beginTagCount = 1;

            while (true)
            {
                tagMatch = tagReg.Match(html, start);
                if (!tagMatch.Success)
                {
                    tagMatch = null;
                    break;
                }
                start = tagMatch.Index + tagMatch.Length;
                if (tagMatch.Groups[1].Value == "/") beginTagCount--;
                else beginTagCount++;
                if (beginTagCount == 0) break;
            }

            if (tagMatch != null)
            {
                HtmlTag tag = new HtmlTag(name, match.Value, html.Substring(match.Index + match.Length, tagMatch.Index - match.Index - match.Length));
                tags.Add(tag);
            }
            else
            {
                break;
            }
        }
        else
        {
            break;
        }
    }

    return tags;
}

　　有了以上函數，就可以提取需要的HTML標誌了，要實現抓取，還需要一個下載網頁的函數：

public static String GetHtml(string url)
{
    try
    {
        HttpWebRequest req = HttpWebRequest.Create(url) as HttpWebRequest;
        req.Timeout = 30 * 1000;
        HttpWebResponse response = req.GetResponse() as HttpWebResponse;
        Stream stream = response.GetResponseStream();

        MemoryStream buffer = new MemoryStream();
        Byte[] temp = new Byte[4096];
        int count = 0;
        while ((count = stream.Read(temp, 0, 4096)) > 0)
        {
            buffer.Write(temp, 0, count);
        }

        return Encoding.GetEncoding(response.CharacterSet).GetString(buffer.GetBuffer());
    }
    catch
    {
        return String.Empty;
    }
}

/// 前端學習交流QQ群：461593224

　　以下以抓取博客園首頁的文章標題和鏈接為例，介紹如何使用HtmlTag類來抓取網頁信息：

class Program
{
    static void Main(string[] args)
    {
        String html = HtmlTag.GetHtml("http://www.cnblogs.com");
        List<HtmlTag> tags = HtmlTag.FindTagByAttr(html, "div", "id", "post_list");
        if (tags.Count > 0)
        {
            List<HtmlTag> item_tags = tags[0].FindTagByAttr("div", "class", "post_item");
            foreach (HtmlTag item_tag in item_tags)
            {
                List<HtmlTag> a_tags = item_tag.FindTagByAttr("a", "class", "titlelnk");
                if (a_tags.Count > 0)
                {
                    Console.WriteLine("標題:{0}", a_tags[0].InnerHTML);
                    Console.WriteLine("鏈接:{0}", a_tags[0].GetAttribute("href"));
                    Console.WriteLine("");
                }
            }
        }
    }
}

運行結果如下：

歡迎學習前端的同學一起學習

前端學習交流QQ群：461593224

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Ngui樣式表(CSS)規則及用法

CSS樣式表全稱叫Cascading Style Sheets是一種用來表現HTML文件樣式的語言，是Web前端開發中一定會用到的排版語言，那麼Ngui中css的靈感就來自於此。與其說是靈感還不如果說是借鑒並通過精簡而來，因為開發這個框架的初衷效率一直就是最重的目標，其次才是使用體驗 ...
函數劫持

前言前段時間接手了一個shi一樣的項目，各種代碼觸目驚心。一個文件里，一會兒4個空格縮進，一會兒2個空格縮進；各種magic number；函數形參a,b,c…… 當然這篇也不打算吐槽，也不想說什麼代碼可讀性的問題，只是想借這個機會談一下維護這樣的代碼時候用到的一個小技巧。函數劫持第一次看到這 ...
你好 JSONP ！！！！

跨域與JSONP ==JSONP是解決跨域問題的一種常見方式== ==跨域問題==：因為瀏覽器有同源策略，所以當不同域間進行數據交互的時候就會出現跨域問題 ···· 同源策略：只有在同協議，同功能變數名稱，同埠的情況下才能進行數據交互 ···· JSONP的原理：可以利用script標簽（==會使用回調函 ...
一個頁面tab標簽切換，都有scroll事件的解決辦法

當前頁有多個tab，如果都有scroll事件，先解綁$(window).off('scroll') 再執行scroll就不可以了，多個標簽就不會互相干擾；給你們個例子： //標簽切換 $('.tab>a').on('click',function(){ $(this).addClass('Cur ...
input type="radio" 賦值問題

之前項目中後臺傳值然後賦給單選input 在網上找了好久，現在有時間了，整理一下，方便以後有人會用到。 $('radio[name="sex"][value'"+sexval+"']').prop('checked','checked'); 其中 sexval就是獲取到的值；這樣就可以賦值 ...
關於頁面冒泡事件，點擊會觸發多次事件的解決方法

當使用$(document).on('click','.class',function(){}) 時，有時會觸發兩次甚至多次點擊事件，阻止冒泡發現沒有用，那麼可以這樣先解除點擊事件，再觸發點擊事件，就好了， $(document).off('click','.class').on('click',' ...
js實現表單checkbox的單選，全選

全選&單選 //全選 //單選 //單選 //單選 //單選 //全選 var $checke_q = $(".quan"); //全選按鈕 var $checke_d = $(".dan"); //單選按鈕 $checke_q.click(function() { var that = this; ...
html5知識點：多終端瀏覽器相容

什麼是多終端？多終端就是包括了我們的電腦，手機，手持式移動設備比如ipad等。因為各類設備的顯示屏幕大小不一，解析度不一，最佳可視效果的橫豎設置也不一樣，所以多終端瀏覽器相容主要就是學習如何讓我們的項目在多終端上呈現相同的顯示效果，它主要涉及到兩塊知識點。 ...