C#實現網頁爬蟲

来源:http://www.cnblogs.com/s0611163/archive/2016/01/30/5170263.html
-Advertisement-
Play Games

HTTP請求工具類(功能:1、獲取網頁html;2、下載網路圖片;): using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net; using System


HTTP請求工具類(功能:1、獲取網頁html;2、下載網路圖片;):

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;

namespace Utils
{
    /// <summary>
    /// HTTP請求工具類
    /// </summary>
    public class HttpRequestUtil
    {
        /// <summary>
        /// 獲取頁面html
        /// </summary>
        public static string GetPageHtml(string url)
        {
            // 設置參數
            HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest;
            request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)";
            //發送請求並獲取相應回應數據
            HttpWebResponse response = request.GetResponse() as HttpWebResponse;
            //直到request.GetResponse()程式才開始向目標網頁發送Post請求
            Stream responseStream = response.GetResponseStream();
            StreamReader sr = new StreamReader(responseStream, Encoding.UTF8);
            //返回結果網頁(html)代碼
            string content = sr.ReadToEnd();
            return content;
        }

        /// <summary>
        /// Http下載文件
        /// </summary>
        public static void HttpDownloadFile(string url)
        {
            int pos = url.LastIndexOf("/") + 1;
            string fileName = url.Substring(pos);
            string path = Application.StartupPath + "\\download";
            if (!Directory.Exists(path))
            {
                Directory.CreateDirectory(path);
            }
            string filePathName = path + "\\" + fileName;
            if (File.Exists(filePathName)) return;

            // 設置參數
            HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest;
            request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)";
            request.Proxy = null;
            //發送請求並獲取相應回應數據
            HttpWebResponse response = request.GetResponse() as HttpWebResponse;
            //直到request.GetResponse()程式才開始向目標網頁發送Post請求
            Stream responseStream = response.GetResponseStream();

            //創建本地文件寫入流
            Stream stream = new FileStream(filePathName, FileMode.Create);

            byte[] bArr = new byte[1024];
            int size = responseStream.Read(bArr, 0, (int)bArr.Length);
            while (size > 0)
            {
                stream.Write(bArr, 0, size);
                size = responseStream.Read(bArr, 0, (int)bArr.Length);
            }
            stream.Close();
            responseStream.Close();
        }
    }
}
View Code

多線程爬取網頁代碼:

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading;
using System.Threading.Tasks;
using System.Windows.Forms;
using Utils;

namespace 爬蟲
{
    public partial class Form1 : Form
    {
        List<Thread> threadList = new List<Thread>();
        Thread thread = null;

        public Form1()
        {
            InitializeComponent();
        }

        private void button1_Click(object sender, EventArgs e)
        {
            DateTime dtStart = DateTime.Now;
            button3.Enabled = true;
            button2.Enabled = true;
            button1.Enabled = false;
            int page = 0;
            int count = 0;
            int personCount = 0;
            lblPage.Text = "已完成頁數:0";
            int index = 0;

            for (int i = 1; i <= 10; i++)
            {
                thread = new Thread(new ParameterizedThreadStart(delegate(object obj)
                {
                    for (int j = 1; j <= 10; j++)
                    {
                        try
                        {
                            index = (Convert.ToInt32(obj) - 1) * 10 + j;
                            string pageHtml = HttpRequestUtil.GetPageHtml("http://tt.mop.com/c44/0/1_" + index.ToString() + ".html");
                            Regex regA = new Regex("<a[\\s]+class=\"J-userPic([^<>]*?)[\\s]+href=\"([^\"]*?)\"");
                            Regex regImg = new Regex("<p class=\"tc mb10\"><img[\\s]+src=\"([^\"]*?)\"");
                            MatchCollection mc = regA.Matches(pageHtml);
                            foreach (Match match in mc)
                            {
                                int start = match.ToString().IndexOf("href=\"");
                                string url = match.ToString().Substring(start + 6);
                                int end = url.IndexOf("\"");
                                url = url.Substring(0, end);
                                if (url.IndexOf("/") == 0)
                                {
                                    string imgPageHtml = HttpRequestUtil.GetPageHtml("http://tt.mop.com" + url);
                                    personCount++;
                                    lblPerson.Invoke(new Action(delegate() { lblPerson.Text = "已完成條數:" + personCount.ToString(); }));
                                    MatchCollection mcImgPage = regImg.Matches(imgPageHtml);
                                    foreach (Match matchImgPage in mcImgPage)
                                    {
                                        start = matchImgPage.ToString().IndexOf("src=\"");
                                        string imgUrl = matchImgPage.ToString().Substring(start + 5);
                                        end = imgUrl.IndexOf("\"");
                                        imgUrl = imgUrl.Substring(0, end);
                                        if (imgUrl.IndexOf("http://i1") == 0)
                                        {
                                            try
                                            {
                                                HttpRequestUtil.HttpDownloadFile(imgUrl);
                                                count++;
                                                lblNum.Invoke(new Action(delegate()
                                                {
                                                    lblNum.Text = "已下載圖片數" + count.ToString();
                                                    DateTime dt = DateTime.Now;
                                                    double time = dt.Subtract(dtStart).TotalSeconds;
                                                    if (time > 0)
                                                    {
                                                        lblSpeed.Text = "速度:" + (count / time).ToString("0.0") + "張/秒";
                                                    }
                                                }));
                                            }
                                            catch { }
                                            Thread.Sleep(1);
                                        }
                                    }
                                }
                            }
                        }
                        catch { }
                        page++;
                        lblPage.Invoke(new Action(delegate() { lblPage.Text = "已完成頁數:" + page.ToString(); }));

                        if (page == 100)
                        {
                            button1.Invoke(new Action(delegate() { button1.Enabled = true; }));
                            MessageBox.Show("完成!");
                        }
                    }
                }));
                thread.Start(i);
                threadList.Add(thread);
            }
        }

        private void button2_Click(object sender, EventArgs e)
        {
            button1.Invoke(new Action(delegate()
            {
                foreach (Thread thread in threadList)
                {
                    if (thread.ThreadState == ThreadState.Suspended)
                    {
                        thread.Resume();
                    }
                    thread.Abort();
                }
                button1.Enabled = true;
                button2.Enabled = false;
                button3.Enabled = false;
                button4.Enabled = false;
            }));
        }

        private void Form1_FormClosing(object sender, FormClosingEventArgs e)
        {
            foreach (Thread thread in threadList)
            {
                thread.Abort();
            }
        }

        private void button3_Click(object sender, EventArgs e)
        {
            foreach (Thread thread in threadList)
            {
                if (thread.ThreadState == ThreadState.Running)
                {
                    thread.Suspend();
                }
            }
            button3.Enabled = false;
            button4.Enabled = true;
        }

        private void button4_Click(object sender, EventArgs e)
        {
            foreach (Thread thread in threadList)
            {
                if (thread.ThreadState == ThreadState.Suspended)
                {
                    thread.Resume();
                }
            }
            button3.Enabled = true;
            button4.Enabled = false;
        }
    }
}
View Code

截圖:

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、本將主要介紹內容 從linq,sql,lambda三個角度比較來學習 select、orderby、分頁、group by、distinct、子查詢、in的用法 1.select 查詢用戶和它們的自我介紹 Linq to sql from a in Blog_UserInfo select ne...
  • 1、下載memcache。 下載地址 http://www.2cto.com/uploadfile/2012/0713/20120713110240777.zip 2、安裝memcache。 3、安裝好後,打開任務管理器就能看到memcache服務了。 4 、memcache基本命令。
  • 今天做網站的時候,用到了分頁技術,我把使用方法記錄下來,以便日後查閱以及幫助新手朋友們。 DataList控制項可以按照列表的形式顯示數據表中的多行記錄,但是被顯示的多行記錄沒有分頁功能,使用起來不太方便。因此需要藉助PagedDataSource類來實現分頁,該類封裝了數據控制項的分頁屬性,其常用屬性
  • 我們知道在win10手機上和平板上都會有後退鍵,那麼PC上該怎麼辦呢?沒關係我們慢慢揭曉。 如果你已經是UWP的忠實用戶,那麼肯定會見到如下的後退鍵。 那麼我們如何來做出來呢?, 我們首先打開App.xaml.cs文件,在OnLaunched方法中Frame對象初始化完畢以後訂閱Navigated事
  • 通過調用分頁存儲過程,實現數據源分頁。
  • 進程是存在獨立的記憶體和資源的,但是AppDomain僅僅是邏輯上的一種抽象。一個process可以存在多個AppDomain。各個AppDomain之間的數據時相互獨立的。一個線程可以穿梭多個AppDomain。 一、屬性 ActivationContext 獲取當前應用程式域的激活上下文。Appl
  • AppDomain是CLR(Common Language Runtime:公共語言運行庫),它可以載入Assembly、創建對象以及執行程式。 AppDomain是CLR實現代碼隔離的基本機制。 每一個AppDomain可以單獨運行、停止;每個AppDomain都有自己預設的異常處理;一個AppD
  • 現在做程式都要將動態的頁面轉換成靜態頁面,今天教大家在ASP.NET 中實現靜態頁面的生成方法。 using System; using System.Data; using System.Configuration; using System.Web; using System.Web.Secur
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...