C#採用vony.Html.AIO插件批量爬MM網站圖片

来源:https://www.cnblogs.com/taxue/archive/2019/03/10/10504874.html
-Advertisement-
Play Games

一、創建項目 1.創建一個.netframework的控制台項目命名為Crawler 2.安裝nuget包搜索名稱Ivony.Html.AIO,使用該類庫什麼方便類似jqury的選擇器可以根據類名或者元素類型來匹配元素,無需要寫正則表達式。 3.創建一個圖片類Image 一、抓取頁面圖片 1.拿到所 ...


一、創建項目

  1.創建一個.netframework的控制台項目命名為Crawler

2.安裝nuget包搜索名稱Ivony.Html.AIO,使用該類庫什麼方便類似jqury的選擇器可以根據類名或者元素類型來匹配元素,無需要寫正則表達式。

3.創建一個圖片類Image

一、抓取頁面圖片

1.拿到所有圖片頁面的地址

本次爬取的網站為https://www.mntup.com/,打開頁面進入二級目錄https://www.mntup.com/SiWa.html,並查頁面看源代碼,如下圖:

圖片頁都在class=“dana”的div下麵,我們要拿去div中超鏈接的href,如下格式:

<div class="dana"><a href=/Rosimm/liantiyimeizi_4f4d781d.html title=[Rosi寫真]NO.2637_紅色吊帶高叉連體衣妹子床上狗爬式秀渾圓翹臀撩人誘惑寫真38P target=_blank>
[Rosi寫真]NO.2637_紅色吊帶高叉連體衣妹子床上狗爬式秀渾圓翹臀撩人誘惑寫真38P <b> <font color=ff0000>2019-02-26</b></font>
</a></div>

首先考慮要拿到所有圖片頁面的超鏈接,c#代碼下:

//需要定義一個list用來存放所有的頁面鏈接 
static List<string> categoryUrl = new List<string>();

//載入url到文檔
  IHtmlDocument source = new JumonyParser().LoadDocument("https://www.mntup.com/XiuRen.html", System.Text.Encoding.GetEncoding("utf-8"));
     
            //獲取所有class=dana的的a標簽
            var divLinks = source.Find(".dana a");
            foreach (var aLink in divLinks)
            {
                var categoryName = aLink.Attribute("href").Value(); //獲取a中的鏈接
                categoryUrl.Add(categoryName);
            }

  

 2.打開圖片頁,發現是帶有分頁的,那就要獲取所有的分頁的鏈接了。分頁的地址都在頁面當中,所以我們直接匹配就好。

由於每個圖片頁都有分頁地址,所以直接匹配分頁地址,C#代碼如下:

   
foreach (var url in categoryUrl)
            {
               //獲取圖片也的的文檔
                IHtmlDocument html = new JumonyParser().LoadDocument($"{address}{url}", System.Text.Encoding.GetEncoding("utf-8"));

                //獲取每個分頁面並下載
                var pageLink = html.Find(".page a");
                foreach (var alingk in pageLink)
                {
                    string href = alingk.Attribute("href").Value();
                    Console.WriteLine($"獲取分頁地址{href}");

                }
            }

 3.所有分頁都獲取到了,接下來就是要獲取頁面中的每張圖片了,打開頁面查看源代碼:

觀察發現,所有的圖片都在class=img的div下麵,那就可以從每個分頁中直接下載所有的圖片了,代碼如下:

  
//獲取每一個分頁的文檔模型
 IHtmlDocument htm2 = new JumonyParser().LoadDocument($"{address}{href}", System.Text.Encoding.GetEncoding("utf-8"));

                    //獲取class=img的div下的img標簽
                    var aLink = htm2.Find(".img img");

                    foreach (var link in aLink)
                    {
                        var imgsrc = link.Attribute("src").Value();
                        Console.WriteLine("獲取到圖片路徑" + imgsrc);
                        Console.WriteLine($"開始下載圖片{imgsrc}>>>>>>>");
                        DownLoadImg(new Image { Address = address + imgsrc, Title = url });
                        
                    }
                }

 圖片下載方法如下,為防止下載的時候阻塞主進程,下載採用非同步:

 

        /// <summary>
        /// 異不下載圖片
        /// </summary>
        /// <param name="image"></param>
        async static void DownLoadImg(Image image)
        {
            using (WebClient client = new WebClient())
            {
                try
                {
                    int start = image.Address.LastIndexOf("/") + 1;
    
                    string fileName = image.Address.Substring(start, image.Address.Length - start);
                  //圖片目錄採用頁面地址作為文件名
                    string directory = "c:/images/" + image.Title.Replace("/", "-").Replace("html", "") + "/";                
                    if (!Directory.Exists(directory))
                    {
                        Directory.CreateDirectory(directory);
                    }
                    await client.DownloadFileTaskAsync(new Uri(image.Address), directory + fileName);
                }
                catch (Exception)
                {
                    Console.WriteLine($"{image.Address}下載失敗");
                    File.AppendText(@"c:/log.txt");
                }
                Console.WriteLine($"{image.Address}下載成功");
            }

        }    

  

三、抓取圖片

由於編碼格式的問題,無法獲取到中文標題,所有就採取了頁面鏈接作為目錄名稱,下麵是一張我抓取圖片的截圖:

 

最後的戰果:

最後奉上代碼如下:https://github.com/peijianmin/MyCrawler.git

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 題目: 一棵二叉搜索樹可被遞歸地定義為具有下列性質的二叉樹:對於任一結點, 其左子樹中所有結點的鍵值小於該結點的鍵值; 其右子樹中所有結點的鍵值大於等於該結點的鍵值; 其左右子樹都是二叉搜索樹。 所謂二叉搜索樹的“鏡像”,即將所有結點的左右子樹對換位置後所得到的樹。 給定一個整數鍵值序列,現請你編寫 ...
  • 將1美元(100美分)換成半美元,1/4美元,10美分,5美分,1美分的零錢,一共有多少種換法?書上寫的思路很簡單,就是把一美元換成:1:半美元+其他5種硬幣的組合;2:不加半美元,其他4種硬幣的組合;數學函數是,f(m,n)=f(m-coin[n-1],n)+f(m,n-1);不過有特殊情況:1:... ...
  • 1.python2和python3 從巨集觀上講,python2源碼不標準、混亂、重覆,和龜叔的理念背道而馳。 在python3上,實現了源碼的統一化和標準化,去除了重覆的代碼。 2.編譯型語言和解釋型語言 編譯型:一次性將所有的程式編譯成二進位文件。 優點——運行速度快 缺點——開發效率低,跨平臺性 ...
  • 引言 ==== 上星期發佈的.NET452+AdminLTE版框架得到了大家的大力支持,目前GitHub已獲近100星,鄙人十分高興能夠幫助大家。其中有不少關心.NET Core的支持情況,因為未來的.NET平臺是屬於.NET Core的,為此,鄙人花了一星期將代碼移植到.NET Core2.1,不 ...
  • 對象初始化器: 對象在創建過程中也可以使用對象初始化器完成“屬性的初始化” 註意: 屬性之間使用”,“分割。 只能在.NET3.0及其以後版本中才能使用 與構造函數一樣具有感知 對象初始化器與構造方法(函數)的異同點: 相同點:都能夠完成對象屬性的初始化 不同點: 對象的銷毀: 基本數據類型與引用類 ...
  • 今天這篇文章我們來聊一聊如何提升並優化ASP.NET Core應用程式的性能,本文的大部分內容來自翻譯,當然中間穿插著自己的理解,希望對大家有所幫助!話不多說開始今天的主題吧! 我們都知道性能是公共網站取得成功的關鍵因素之一。如果一個網站的響應時間超過3秒,那麼用戶通常不會再此光顧(此網站)。谷歌, ...
  • 需要對文字列表進行處理,然後用到DataGridView控制項來處理,記錄一下。效果如下: 主要是想通過禁用和取消單元格選擇來使圖標單元格呈現出滑鼠點擊的效果。因為有個單元格選擇的問題困擾著我。 是這樣來處理的: 1.在CellStateChanged事件裡面對指定單元格進行禁用處理,好比column ...
  • 寫在前面 併發編程一直都存在,只不過過去的很長時間里,比較難以實現,隨著互聯網的發展,人口紅利的釋放,更加友好的支持併發編程已經成了主流編程語言的標配,而對於軟體開發人員來說,沒有玩過併發編程都會有點不好意思。本系列文章將會以C#語言為主,詳細介紹併發編程。 什麼是併發編程,其實很簡單,併發編程就是... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...