C#寫爬蟲,版本V2.0

来源:http://www.cnblogs.com/JsonZhangAA/archive/2016/06/20/5601893.html
-Advertisement-
Play Games

這個版本主要是以百度圖片為對象,對其進行爬蟲操作,實現了最基本的下載功能,但是缺陷非常多,日後還會對其進行改進。 打開百度圖片,同時打開開發者工具,我們會發現,百度圖片是通過如下的一段ajax來載入圖片的。 http://image.baidu.com/search/index?tn=baiduim ...


這個版本主要是以百度圖片為對象,對其進行爬蟲操作,實現了最基本的下載功能,但是缺陷非常多,日後還會對其進行改進。

打開百度圖片,同時打開開發者工具,我們會發現,百度圖片是通過如下的一段ajax來載入圖片的。

http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1466428638972_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%94%90%E5%AB%A3&f=3&oq=tangyan&rsp=0

這裡,我們只需瞭解word後面就是我們的關鍵字,那麼,這個就比較好弄了,結合一部分V1.0的代碼,很快就可以開發出來,原理和V1.0類似。

後臺代碼如下:

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using Newtonsoft.Json.Linq;
using Newtonsoft.Json;
using System.Text.RegularExpressions;

namespace 針對百度圖片的動態網頁爬蟲
{
    public partial class Form1 : Form
    {
        static int count = 0;
        public Form1()
        {
            InitializeComponent();
        }

        private void btnDo_Click(object sender, EventArgs e)
        {
            int pageCount=2;
            string keyword = this.keyWords.Text;
            for (int i = 0; i <pageCount; i++)
            {
                HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create("http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1466307565574_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word="+keyword.ToString());
                using (HttpWebResponse response = (HttpWebResponse)request.GetResponse())
                {
                    if (response.StatusCode == HttpStatusCode.OK)
                    {
                        using (Stream stream = response.GetResponseStream())
                        {
                            try
                            {
                                // 下載指定頁的所有圖片
                                DownloadPage(stream);
                            }
                            catch (Exception ex)
                            {
                                // 跨線程訪問UI線程的txtLogs
                               
                            }
                        }
                    }
                    else
                    {
                       // MessageBox.Show("獲取第" + pageCount + "頁失敗:" + response.StatusCode);
                    }
                }
            }
            MessageBox.Show("執行成功,共"+count.ToString()+"圖片");
        }
        private static string[] getLinks(string html)
        {
            const string pattern = @"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";
            Regex r = new Regex(pattern, RegexOptions.IgnoreCase); //新建正則模式
            MatchCollection m = r.Matches(html); //獲得匹配結果
            string[] links = new string[m.Count];
            int count=0;
            for (int i = 0; i < m.Count; i++)
            {
                if(isValiable(m[i].ToString()))
                {
                      links[count] = m[i].ToString(); //提取出結果
                    count++;
                }
              
            }
            return links;
        }
        private void DownloadPage(Stream stream)
        {
            using(StreamReader reader=new StreamReader(stream))
            {
                string r1;
                StringBuilder sb = new StringBuilder();
                while((r1=reader.ReadLine())!=null)
                {
                    sb.Append(r1);
                }
                FileStream aFile = new FileStream("../../txt.txt", FileMode.OpenOrCreate);
                StreamWriter sw = new StreamWriter(aFile);//將網頁存儲到了txt文本文件中
                sw.WriteLine(sb.ToString());
                sw.Close();
                string[] s;
                s = getLinks(sb.ToString());
                int i = 0;
               
                for(i=0;i<s.Count();i++)
                {
                    if(s[i]!=null||s[i]!="")
                    {
                        count++;
                        savePicture(s[i]);
                    }
                   
                }
                this.label2.Text = count.ToString();
            }
        }
        private static bool isValiable(string url)
        {
            if (url.Contains(".jpg") || url.Contains(".gif") || url.Contains(".png"))
            {
                return true; //得到一些圖片之類的資源
            }
            return false;
        }
        private static void savePicture(string path)
        {
            DataClasses1DataContext db = new DataClasses1DataContext();
            Uri url = new Uri(path);
            HttpWebRequest webRequest = (HttpWebRequest)HttpWebRequest.Create(url);
            webRequest.Referer = "http://image.baidu.com";
            HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();

            if (isValiable(path))//判斷如果是圖片,就將其存儲到資料庫中。
            {
                Bitmap myImage = new Bitmap(webResponse.GetResponseStream());

                MemoryStream ms = new MemoryStream();
                myImage.Save(ms, System.Drawing.Imaging.ImageFormat.Jpeg);
                var p = new pictureUrl
                {
                    pictureUrl1 = ms.ToArray()
                };
                db.pictureUrl.InsertOnSubmit(p);
                db.SubmitChanges();
            }

        }
    }
}

演示效果:

這個程式只是解決了有無得問題,還有許多問題,以後會繼續解決。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 據說得有楔子 按照慣例,先來幾張樣例圖(註:為了展示視窗陰影效果,截圖範圍向外擴展了些,各位憑想象吧)。 還要來個序 其實,很多年沒寫過Winform了,前端時間在重構我們公司自己的呼叫中心系統,突然就覺得客戶端好醜好醜,對於我這種強迫症晚期患者來說,界面不好看都不知道怎麼寫代碼的,簡直就是種折磨, ...
  • 繼續上篇:EntityFramework和EntityFramework.Extended使用說明——性能,語法和產生的sql 1.監控sql 上篇中的sql監控採用的是 Microsoft SQL Server Management Studio中工具->profiler去監控的.當然,Expre ...
  • 前面Insus.NET實現過《使用ViewModel來實現多個Model傳送至視圖》http://www.cnblogs.com/insus/p/5594134.html 和《使用ExpandoObject來實現多個Model傳送至視圖》http://www.cnblogs.com/insus/p/ ...
  • 1、下載安裝包 Windows6.1-KB963697-x64.msu 2、安裝過程失敗,提示未安裝更新 我是阿裡雲的伺服器,一直出現下麵提示 經過反覆研究,確定系統問題,重新恢復了初始系統,再進行安裝,就成功了。 3、添加媒體服務角色,成功解決。 有時候我們總是把問題想象的複雜,其實非常簡單。 ...
  • 框架最新的升級實現了一個頁面部件功能,其實就是通過後臺方法查詢資料庫內容,把查詢結果的 HTML 代碼呈現到 Razor 視圖中,考慮到靈活性,需要能在任意 Razor 視圖中調用該方法,這樣任意 Razor 頁面都能以統一的方式方便地共用該頁面部件的 HTML 內容,這對於代碼的重用性和可維護性都... ...
  • 一、說明 一般我們定義委托都是有如下兩步: public delegate void MyDelegate(string name);//定義委托 public MyDelegate myDelegate; //使用委托 一、說明 一般我們定義委托都是有如下兩步: public delegate v ...
  • 保證應用程式的安全應當從編寫第一行代碼的時候開始做起,原因很簡單,隨著應用規模的發展,修補安全漏洞所需的代價也隨之快速增長。根據IBM的系統科學協會(SystemsSciencesInstitute)的研究,如果等到軟體部署之後再來修補缺陷,其代價相當於開發期間檢測和消除缺陷的15倍。 為了用最小的 ...
  • ZKEACMS模板組件的核心思想在於內容於視圖分離,內容的展現形式全部由視圖控制,可在不改變內容的情況下,通過切換視圖達到不同的顯示效果。 一個模板組件,可以由多個分組構成,每個分組都有自己的顯示模板。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...