C#+HtmlAgilityPack+Dapper走一波爬蟲

-Advertisement-

最近因為公司業務需要，又有機會擼winform了，這次的需求是因為公司有項目申報的這塊業務，項目申報前期需要關註政府發佈的相關動態信息，政府部門網站過多，人工需要一個一個網站去瀏覽和查閱，有時候還會遺漏掉，因此呢，我們打算用爬蟲+移動端web來做，我呢主要負責爬蟲和web Api。爬蟲篇爬蟲主要 ...

　　　　最近因為公司業務需要，又有機會擼winform了，這次的需求是因為公司有項目申報的這塊業務，項目申報前期需要關註政府發佈的相關動態信息，政府部門網站過多，人工需要一個一個網站去瀏覽和查閱，有時候還會遺漏掉，因此呢，我們打算用爬蟲+移動端web來做，我呢主要負責爬蟲和web Api。

爬蟲篇

　　　　爬蟲主要採用.Net強大的開源解析HTML元素的類庫HtmlAgilityPack，操作過XML的童鞋應該很快就可以上手，通過分析XPath來解析HTML，非常的方便的，不過還有一款不錯的叫Jumony，沒用過，對HtmlAgilityPack比較熟悉，所以首選了HtmlAgilityPack來作為主力軍。

　　　　HtmlAgilityPack的基本使用可以參考這篇 https://www.cnblogs.com/GmrBrian/p/6201237.html，

　　　　效果圖，多圖慎入

採集廣西財政廳例子

　　因為是政府發佈的出來的信息，所以信息的對外開放的，只是機器代替人工來瀏覽，不會被和諧的，主要採集文章列表和文章內容，以廣西財政廳網站為例子。

First

　　載入網站這個就不用說了，先查看網站的字元編碼，如圖<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> ，然後設置HtmlAgilityPack中的OverrideEncoding屬性，

htmlAgilityPack.OverrideEncoding = Encoding.UTF8;

Second

　　分析文章列表，瀏覽器F12查看HTML標簽情況，可以分析出XPath為

//ul[@class='dzjzw_list_main_ul']//li

　　流程代碼：

//獲取第一頁的內容
HtmlNode  row = GetHtmlDoc(htmlWeb, url);
//根據xpath獲取列表
var list = row.SelectNodes("//ul[@class='dzjzw_list_main_ul']//li");
 foreach (var data in list)
{
     ....
}

/// <summary>
/// 這裡偶爾會瀏覽網頁失敗的，所以失敗了多瀏覽幾次
/// </summary
public static HtmlNode GetHtmlDoc(HtmlWeb htmlWeb, string url)
        {
            try
            {
                var doc = GetDoc(htmlWeb, url);
                if (doc == null)
                {
                    int againIdx = 0;
                    while (againIdx++ < 5)
                    {
                        System.Threading.Thread.Sleep(1000);
                        doc = GetDoc(htmlWeb, url);
                        if (doc != null)
                            break;
                    }
                    if (doc == null)
                    {
                        var htmlData = HttpHelper.Get<string>(url).Result;//.GetStringAsync(url).Result;
                        return HtmlNode.CreateNode(htmlData);
                    }
                    else
                    {
                        return doc.DocumentNode;
                    }
                }
                return doc.DocumentNode;
            }
            catch
            {
                Log.Error("未能正確訪問地址：" + url);
                return null;
            }
        }

　　文章內容的鏈接的XPath標簽

//a

　　文章發佈的時間XPath標簽

//span[@class='date']

都可以使用 HtmlNode.InnerText 來獲取到相關值，非常的方便。

Third

　　　　文章詳細內容也如此，通過分析XPath來分析即可，最頭疼的是翻頁的問題，因為政府網站使用的技術一般都是比較那個的，你懂的，在這裡的翻頁也比較簡單，通過拼接URL來進行翻頁即可，有些使用到oncilck來觸發的，有些表單提交，要具體問題具體分析了，用Fiddler和瀏覽器的F12大法來分析翻頁數據來源，所以這裡的例子比較簡單

Fourth

　　爬取到的之後，再來一個釘釘通知，在群裡拉入一個機器人，可以參考釘釘的開發文檔（https://open-doc.dingtalk.com/docs/doc.htm?spm=a219a.7629140.0.0.ece6g3&treeId=257&articleId=105735&docType=1#）

這樣我們爬取的消息就第一時間通知到群里的小伙伴啦，是不是很炫酷，哈哈哈。

後面做完了再上傳到GitHub吧，下班下班。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

AnnotationConfigBeanDefinitionParser are only available on JDK 1.5 and higher

報錯： org.springframework.beans.factory.BeanDefinitionStoreException: Unexpected exception parsing XML document from class path resource [beans.xml]; ne ...
Maven學習中的問題及解決

最近剛入門Maven，在學習過程中遇到了一些問題，在這分享下，也許會對你們有些幫助（一）Maven項目一更新jdk版本就會變成1.5？在pom.xml文件中添加編譯器版本插件右擊項目->Properties->Java Build Path將jdk改為1.7，然後在Project Facets ...
java實現一個簡單的數學表達式分析器（加減乘除和括弧）

1.使用此分析器需要輸入兩個量： String str1=運算符號有前後有空格的數學表達式（如 1 + 2 * ( 3+1) - 5 #）,併在最後添加‘#’字元作為結束標誌； String str2=無空格的分割的數學表達式（如 1+2*(3+1)-5#）,同樣添加‘#’字元作為結束標誌； 2.註 ...
php靜態變數與方法與phar的使用

本節用類與靜態變數改造之前的例子:php根據命令行參數生成配置文件 ghostinit.php: ghost: 執行結果： callstatic繼續改造： ghostinit.php: ghost: 把配置獨立成一個類 ghostconfig.php: 把這兩個屬性註釋，也可以正常運行, php允許 ...
8.QT-對話框(模態與非模態)

對話框介紹對話框是於用戶進行簡易交互的頂層視窗 QDialog是Qt中所有對話框視窗的父類,是一種容器類型的組件 QDialog繼承於QWidget類,如下圖所示: QWidget和QDialog有什麼不同 QDialog: QDialog是定製了視窗式樣的特殊的QWidget QDialog只能 ...
第六章—字典

6-1 人：使用一個字典來存儲一個熟人的信息，包括名、姓、年齡和居住的城市。該字典應包含鍵first_name 、last_name 、age 和city 。將存儲在該字典中的每項信息都列印出來。輸出： 6-2 喜歡的數字：使用一個字典來存儲一些人喜歡的數字。請想出5個人的名字，並將這些名字 ...
C# 實現表單的自動化測試<通過程式控制一個網頁>

C# 實現表單的自動化測試<通過程式控制一個網頁> ...
AspNetCoreApi 跨域處理

AspNetCoreApi 跨域處理如果咱們有處理過MV5 跨域問題這個問題也不大。（1）為什麼會出現跨域問題：瀏覽器安全限制了前端腳本跨站點的訪問資源，所以在調用WebApi 介面時不能成功訪問資源，原因“同源策略”的存在：同源指以下幾點相同 (1) IP地址/功能變數名稱 (2) 埠號 (3) ...