C#採用vony.Html.AIO插件批量爬MM網站圖片

-Advertisement-

一、創建項目 1.創建一個.netframework的控制台項目命名為Crawler 2.安裝nuget包搜索名稱Ivony.Html.AIO,使用該類庫什麼方便類似jqury的選擇器可以根據類名或者元素類型來匹配元素，無需要寫正則表達式。 3.創建一個圖片類Image 一、抓取頁面圖片 1.拿到所 ...

一、創建項目

　　1.創建一個.netframework的控制台項目命名為Crawler

2.安裝nuget包搜索名稱Ivony.Html.AIO,使用該類庫什麼方便類似jqury的選擇器可以根據類名或者元素類型來匹配元素，無需要寫正則表達式。

3.創建一個圖片類Image

一、抓取頁面圖片

1.拿到所有圖片頁面的地址

本次爬取的網站為https://www.mntup.com/，打開頁面進入二級目錄https://www.mntup.com/SiWa.html,並查頁面看源代碼，如下圖：

圖片頁都在class=“dana”的div下麵,我們要拿去div中超鏈接的href，如下格式：

<div class="dana"><a href=/Rosimm/liantiyimeizi_4f4d781d.html title=[Rosi寫真]NO.2637_紅色吊帶高叉連體衣妹子床上狗爬式秀渾圓翹臀撩人誘惑寫真38P target=_blank>
[Rosi寫真]NO.2637_紅色吊帶高叉連體衣妹子床上狗爬式秀渾圓翹臀撩人誘惑寫真38P <b> <font color=ff0000>2019-02-26</b></font>
</a></div>

首先考慮要拿到所有圖片頁面的超鏈接，c#代碼下：

//需要定義一個list用來存放所有的頁面鏈接 
static List<string> categoryUrl = new List<string>();

//載入url到文檔
  IHtmlDocument source = new JumonyParser().LoadDocument("https://www.mntup.com/XiuRen.html", System.Text.Encoding.GetEncoding("utf-8"));
     
            //獲取所有class=dana的的a標簽
            var divLinks = source.Find(".dana a");
            foreach (var aLink in divLinks)
            {
                var categoryName = aLink.Attribute("href").Value(); //獲取a中的鏈接
                categoryUrl.Add(categoryName);
            }

2.打開圖片頁，發現是帶有分頁的，那就要獲取所有的分頁的鏈接了。分頁的地址都在頁面當中，所以我們直接匹配就好。

由於每個圖片頁都有分頁地址，所以直接匹配分頁地址，C#代碼如下：

   
foreach (var url in categoryUrl)
            {
               //獲取圖片也的的文檔
                IHtmlDocument html = new JumonyParser().LoadDocument($"{address}{url}", System.Text.Encoding.GetEncoding("utf-8"));

                //獲取每個分頁面並下載
                var pageLink = html.Find(".page a");
                foreach (var alingk in pageLink)
                {
                    string href = alingk.Attribute("href").Value();
                    Console.WriteLine($"獲取分頁地址{href}");

                }
            }

　3.所有分頁都獲取到了，接下來就是要獲取頁面中的每張圖片了，打開頁面查看源代碼：

觀察發現，所有的圖片都在class=img的div下麵，那就可以從每個分頁中直接下載所有的圖片了，代碼如下：

  
//獲取每一個分頁的文檔模型
 IHtmlDocument htm2 = new JumonyParser().LoadDocument($"{address}{href}", System.Text.Encoding.GetEncoding("utf-8"));

                    //獲取class=img的div下的img標簽
                    var aLink = htm2.Find(".img img");

                    foreach (var link in aLink)
                    {
                        var imgsrc = link.Attribute("src").Value();
                        Console.WriteLine("獲取到圖片路徑" + imgsrc);
                        Console.WriteLine($"開始下載圖片{imgsrc}>>>>>>>");
                        DownLoadImg(new Image { Address = address + imgsrc, Title = url });
                        
                    }
                }

　圖片下載方法如下，為防止下載的時候阻塞主進程，下載採用非同步：

        /// <summary>
        /// 異不下載圖片
        /// </summary>
        /// <param name="image"></param>
        async static void DownLoadImg(Image image)
        {
            using (WebClient client = new WebClient())
            {
                try
                {
                    int start = image.Address.LastIndexOf("/") + 1;
    
                    string fileName = image.Address.Substring(start, image.Address.Length - start);
                  //圖片目錄採用頁面地址作為文件名
                    string directory = "c:/images/" + image.Title.Replace("/", "-").Replace("html", "") + "/";                
                    if (!Directory.Exists(directory))
                    {
                        Directory.CreateDirectory(directory);
                    }
                    await client.DownloadFileTaskAsync(new Uri(image.Address), directory + fileName);
                }
                catch (Exception)
                {
                    Console.WriteLine($"{image.Address}下載失敗");
                    File.AppendText(@"c:/log.txt");
                }
                Console.WriteLine($"{image.Address}下載成功");
            }

        }

三、抓取圖片

由於編碼格式的問題，無法獲取到中文標題，所有就採取了頁面鏈接作為目錄名稱，下麵是一張我抓取圖片的截圖：

最後的戰果：

最後奉上代碼如下：https://github.com/peijianmin/MyCrawler.git

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

L2-004 這是二叉搜索樹嗎？

題目：一棵二叉搜索樹可被遞歸地定義為具有下列性質的二叉樹：對於任一結點，其左子樹中所有結點的鍵值小於該結點的鍵值；其右子樹中所有結點的鍵值大於等於該結點的鍵值；其左右子樹都是二叉搜索樹。所謂二叉搜索樹的“鏡像”，即將所有結點的左右子樹對換位置後所得到的樹。給定一個整數鍵值序列，現請你編寫 ...
SICP——換零錢遞歸解法（樹形遞歸）

將1美元（100美分）換成半美元，1/4美元，10美分，5美分，1美分的零錢，一共有多少種換法？書上寫的思路很簡單，就是把一美元換成：1：半美元+其他5種硬幣的組合；2：不加半美元，其他4種硬幣的組合；數學函數是，f(m,n)=f(m-coin[n-1],n)+f(m,n-1);不過有特殊情況：1：... ...
python學習_1

1.python2和python3 從巨集觀上講，python2源碼不標準、混亂、重覆，和龜叔的理念背道而馳。在python3上，實現了源碼的統一化和標準化，去除了重覆的代碼。 2.編譯型語言和解釋型語言編譯型：一次性將所有的程式編譯成二進位文件。優點——運行速度快缺點——開發效率低，跨平臺性 ...
.NET Core開源快速開發框架Colder發佈 (NET Core2.1+AdminLTE版)

引言 ==== 上星期發佈的.NET452+AdminLTE版框架得到了大家的大力支持，目前GitHub已獲近100星，鄙人十分高興能夠幫助大家。其中有不少關心.NET Core的支持情況，因為未來的.NET平臺是屬於.NET Core的，為此，鄙人花了一星期將代碼移植到.NET Core2.1，不 ...
C#基礎(204)--對象初始化器，基本數據類型與引用數據類型特點總結，ref，out關鍵字的使用

對象初始化器：對象在創建過程中也可以使用對象初始化器完成“屬性的初始化” 註意：屬性之間使用”,“分割。只能在.NET3.0及其以後版本中才能使用與構造函數一樣具有感知對象初始化器與構造方法(函數)的異同點：相同點：都能夠完成對象屬性的初始化不同點：對象的銷毀：基本數據類型與引用類 ...
10個小技巧助您寫出高性能的ASP.NET Core代碼

今天這篇文章我們來聊一聊如何提升並優化ASP.NET Core應用程式的性能，本文的大部分內容來自翻譯，當然中間穿插著自己的理解，希望對大家有所幫助！話不多說開始今天的主題吧！我們都知道性能是公共網站取得成功的關鍵因素之一。如果一個網站的響應時間超過3秒，那麼用戶通常不會再此光顧（此網站）。谷歌， ...
Winform DataGridView控制項在業務邏輯上的簡單使用

需要對文字列表進行處理，然後用到DataGridView控制項來處理，記錄一下。效果如下：主要是想通過禁用和取消單元格選擇來使圖標單元格呈現出滑鼠點擊的效果。因為有個單元格選擇的問題困擾著我。是這樣來處理的： 1.在CellStateChanged事件裡面對指定單元格進行禁用處理，好比column ...
C#併發編程之概述

寫在前面併發編程一直都存在，只不過過去的很長時間里，比較難以實現，隨著互聯網的發展，人口紅利的釋放，更加友好的支持併發編程已經成了主流編程語言的標配，而對於軟體開發人員來說，沒有玩過併發編程都會有點不好意思。本系列文章將會以C#語言為主，詳細介紹併發編程。什麼是併發編程，其實很簡單，併發編程就是... ...