[初探爬蟲框架: DotnetSpider] 一 採集博客園

来源:http://www.cnblogs.com/shensigzs/archive/2016/05/25/5528685.html
-Advertisement-
Play Games

今天ModestMT.Zou發佈了DotnetSpider爬蟲第二章節,內容簡單明瞭,基本看懂了,於是想自己試試看,直接就拿博客園開刀了。 這裡有最基本的使用方式,本文章不介紹 [開源 .NET 跨平臺 數據採集 爬蟲框架: DotnetSpider] [二] 最基本,最自由的使用方式 這裡我已經從 ...


今天ModestMT.Zou發佈了DotnetSpider爬蟲第二章節,內容簡單明瞭,基本看懂了,於是想自己試試看,直接就拿博客園開刀了。

這裡有最基本的使用方式,本文章不介紹

[開源 .NET 跨平臺 數據採集 爬蟲框架: DotnetSpider] [二] 最基本,最自由的使用方式

這裡我已經從https://github.com/zlzforever/DotnetSpider上下載代碼並編譯通過

這裡用的是VS2015,因為此項目有些C#6.0語法糖

首先,用VS2015新建一個控制項台程式,命名為DotnetSpiderDemo

 

新建一個數據對象

 

public class Cnblog
    {
        public string Title { get; set; }

        public string Url { get; set; }

        public string Author { get; set; }

        public string Conter { get; set; }
    }

  

 先引用兩個Dll類庫

Java2Dotnet.Spider.Core.dll

Newtonsoft.Json.dll

如果你編譯DotnetSpider成功的話,可以在output目錄中找到

現在來寫數據處理器,實現 IPageProcessor 這個介面

/// <summary>
    /// 頁面列表處理器
    /// </summary>
    public class PageListProcessor : IPageProcessor
    {
        public Site Site{get; set; }

        public void Process(Page page)
        {
            var totalCnblogElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='post_item']")).Nodes();
            List<Cnblog> results = new List<Cnblog>();
            foreach (var cnblogElement in totalCnblogElements)
            {
                var cnblog = new Cnblog();
                cnblog.Title = cnblogElement.Select(Selectors.XPath(".//div[@class='post_item_body']/h3/a")).GetValue();
                cnblog.Url = cnblogElement.Select(Selectors.XPath(".//div[@class='post_item_body']/h3")).Links().GetValue();
                cnblog.Author = cnblogElement.Select(Selectors.XPath(".//div[@class='post_item_foot']/a[1]")).GetValue();
                results.Add(cnblog);
            }
            page.AddResultItem("Result", results);
        }
    }

  

關於XPath,可以到這裡學習http://www.w3school.com.cn/xpath/,我也是下午剛看了一遍,因為有XML/HTML基礎,基本沒壓力

關於XPath表達式如何寫,我覺得用谷歌審核元素就足夠了,可以複製XPath。也有一款谷歌XPath插件,因我翻不了牆,就沒安裝。

如下圖://*[@id="post_list"]/div[20]/div[2]/h3/a,然後再按需改改

 

數據存取

需要實現 IPipeline這個介面,然後你想保存到文件或資料庫就自己選擇

public class ListPipeline : IPipeline
    {
        private string _path;

        public ListPipeline(string path)
        {
            if (string.IsNullOrEmpty(path))
            {
                throw new Exception("文件名不能為空!");
            }

            _path = path;

            if (!File.Exists(_path))
            {
                File.Create(_path);
            }
        }
        public void Dispose()
        {
        }

        public void Process(ResultItems resultItems, ISpider spider)
        {
            lock (this)
            {
                foreach (Cnblog entry in resultItems.Results["Result"])
                {
                    File.AppendAllText(_path, JsonConvert.SerializeObject(entry));
                }
            }
        }

  

接下來在Program的Main方法中寫運行代碼

class Program
    {
        static void Main(string[] args)
        {
            var site = new Site() { EncodingName = "UTF-8" };
            for (int i = 1; i <= 30; i++)//30頁
            {
                site.AddStartUrl(
                    $"http://www.cnblogs.com/p{i}");//已更正去掉#號,本來是"http://www.cnblogs.com/#p{i}",這樣發現請求的是http://www.cnblogs.com
            }
            
            Spider spider = Spider.Create(site, new PageListProcessor(), new QueueDuplicateRemovedScheduler()).AddPipeline(new ListPipeline("test.json")).SetThreadNum(2);//兩個線程
            spider.Run();
            Console.Read();
        }
    }

  

 

 

這樣每一頁信息就被保存起來了,但到這裡還沒完,一般情況不僅僅是採集列表頁,也會採集詳細頁,於是我又添加了兩個類,暫時我是這樣實現的,但感覺有點慢

 

添加頁面詳細數據處理器

/// <summary>
    /// 頁面詳細處理器
    /// </summary>
    public class PageDetailProcessor : IPageProcessor
    {
        private Cnblog cnblog;
        public PageDetailProcessor(Cnblog _cnblog)
        {
            cnblog = _cnblog;
        }
        public Site Site { get; set; }

        public void Process(Page page)
        {
            cnblog.Conter=page.Selectable.Select(Selectors.XPath("//*[@id='cnblogs_post_body']")).GetValue();
            page.AddResultItem("detail",cnblog);
        }
    }

  

再添加頁面詳細數據保存

public class DetailPipeline : IPipeline
    {
        private string path;
        public DetailPipeline(string _path)
        {
            
            if (string.IsNullOrEmpty(_path))
            {
                throw new Exception("路徑不能為空!");
            }
            path = _path;
            if (!Directory.Exists(_path))
            {
                Directory.CreateDirectory(_path);
            }
        }
        public void Dispose()
        {
            
        }

        public void Process(ResultItems resultItems, ISpider spider)
        {
            Cnblog cnblog=resultItems.Results["detail"];
            FileStream fs=File.Create(path + "\\" + cnblog.Title + ".txt");
            byte[] bytes=UTF8Encoding.UTF8.GetBytes("Url:"+cnblog.Url+Environment.NewLine+cnblog.Conter);
            fs.Write(bytes,0,bytes.Length);
            fs.Flush();
            fs.Close();
        }
    }

  

修改ListPipeline這個類RequestDetail方法,我的想法是列表數據保存一次就請求一次詳細頁,然後再保存詳細頁

所有詳細頁都保存在details這個目錄下

public class ListPipeline : IPipeline
    {
        private string _path;

        public ListPipeline(string path)
        {
            if (string.IsNullOrEmpty(path))
            {
                throw new Exception("文件名不能為空!");
            }

            _path = path;

            if (!File.Exists(_path))
            {
                File.Create(_path);
            }
        }
        public void Dispose()
        {
        }

        public void Process(ResultItems resultItems, ISpider spider)
        {
            lock (this)
            {
                foreach (Cnblog entry in resultItems.Results["Result"])
                {
                    File.AppendAllText(_path, JsonConvert.SerializeObject(entry));
                    RequestDetail(entry);
                }
            }
        }

        /// <summary>
        /// 請求詳細頁
        /// </summary>
        /// <param name="entry"></param>
        private static void RequestDetail(Cnblog entry)
        {
            ISpider spider;
            var site = new Site() {EncodingName = "UTF-8"};
            site.AddStartUrl(entry.Url);
            spider =
                Spider.Create(site, new PageDetailProcessor(entry), new QueueDuplicateRemovedScheduler())
                    .AddPipeline(new DetailPipeline("details"))
                    .SetThreadNum(1);
            spider.Run();
        }
    }

  

其它代碼保持不變,運行程式,現在已經能保存詳細頁內容了

 

最後,程式運行下來沒什麼大問題,但就是在採集詳細頁時比較慢,我的想法是把所有詳細頁一起加到調度中心,然後開多個線程去運行,這個有待學習。 

 

今天把上面的問題解決了,修改ListPipeline類,這樣就可一次把所有詳細頁都加到調度中心,然後開多個線程去請求。

public void Process(ResultItems resultItems, ISpider spider)
        {
            lock (this)
            {
                var site = new Site() { EncodingName = "UTF-8" };
                foreach (Cnblog entry in resultItems.Results["Result"])
                {
                    File.AppendAllText(_path, JsonConvert.SerializeObject(entry));
                    site.AddStartUrl(entry.Url);
                }
                RequestDetail(site);
            }
        }

        /// <summary>
        /// 請求詳細頁
        /// </summary>
        /// <param name="site"></param>
        private static void RequestDetail(Site site)
        {
            ISpider spider =
                Spider.Create(site, new PageDetailProcessor(), new QueueDuplicateRemovedScheduler())
                    .AddPipeline(new DetailPipeline("details"))
                    .SetThreadNum(3);
            spider.Run();
        }

  

 PageDetailProcessor類也更改了,加入標題、url獲取

public void Process(Page page)
        {
            Cnblog cnblog=new Cnblog();
            cnblog.Title = page.Selectable.Select(Selectors.XPath("//a[@id='cb_post_title_url']")).GetValue();
            cnblog.Conter=page.Selectable.Select(Selectors.XPath("//*[@id='cnblogs_post_body']")).GetValue();
            cnblog.Url = page.Url;
            page.AddResultItem("detail",cnblog);
        }

  

 

Demo下載


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、查看Linux內核版本命令(兩種方法): 1、cat /proc/version [root@S-CentOS home]# cat /proc/versionLinux version 2.6.32-431.el6.x86_64 ([email protected]. ...
  • WIN 下的超動態菜單(一)介紹 作者:黃山松,發表於博客園:http://www.cnblogs.com/tomview/ WINDOWS 編程中,通常彈出菜單的方法是在資源文件中建立菜單資源,然後在程式中裝載資源顯示菜單;另外可以用動態創建菜單的方法,但是逐次調用創建菜單添加菜單項的函數很麻煩。... ...
  • 開發板上安裝嵌入式系統要比手機上簡潔很多,有很多擴展的介面,適合對程式進行測試,這裡所提及的是S3C6410開發板。它是由三星公司推出的一款低功耗/高性價比的RISC處理器。,其中包含強大的硬體加速器,還有集成MFC,還有先進的3D加速器,優化了外部介面。如下圖十OK6410開發板的模型圖,便於理解 ...
  • 一、DDNS簡介 DNS,功能變數名稱系統,是網際網路的一項服務,它作為將功能變數名稱和IP地址相互映射的一個分散式資料庫,能夠使人們更方便的訪問互聯網。 DDNS,動態功能變數名稱系統,是功能變數名稱系統(DNS)中的一種自動更新名稱伺服器內容的技術。在傳統的DNS中,功能變數名稱必須和固定的IP綁定,當IP變化時,必須手動更新IP與功能變數名稱 ...
  • Centos6.6 下載地址:thunder://QUFodHRwOi8vbGludXguemh1YW5neGl0b25nLmNvbTo4MDgvMjAxNTAxL0NlbnRPUy02LjYteDg2XzY0LWJpbi1EVkQxLmlzb1pa 1、首先要下載一個centos的iso鏡像,我是 ...
  • 不廢話,直接上如何利用Asp.NET操作XML文件,並對其屬性進行修改,剛開始的時候,是打算使用JS來控制生成XML文件的,但是最後卻是無法創建文件,讀取文件則沒有使用了 index.aspx 文件 index.aspx.cs文件 Command.cs 文件 UserEdit.aspx UserEd ...
  • 1、var 1、均是聲明動態類型的變數。 2、在編譯階段已經確定類型,在初始化的時候必須提供初始化的值。 3、無法作為方法參數類型,也無法作為返回值類型。 2、dynamic 1、均是聲明動態類型的變數。 2、運行時檢查類型,不存在語法類型,在初始化的時候可以不提供初始化的值。 3、反射時簡化代碼, ...
  • 1、通過Nuget下載CORS安裝包 2、在WebApiConfig.cs文件中註冊CORS 3、在全局文件啟用CORS支持 4、在控制器上添加頭 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...