簡單的爬蟲,爬去博客園文章標題

来源:http://www.cnblogs.com/taxue/archive/2017/09/18/7545737.html
-Advertisement-
Play Games

花了幾個小時寫了一個小程式,沒什麼技術含量,第一次寫博客。本人是個菜鳥,想記錄一下自己的學習。 運行效果如圖: 代碼如下: string url = "https://www.cnblogs.com/"; int pagNum = 10; string html = ""; //string pat ...


花了幾個小時寫了一個小程式,沒什麼技術含量,第一次寫博客。本人是個菜鳥,想記錄一下自己的學習。

運行效果如圖:

  代碼如下:
            string url = "https://www.cnblogs.com/";
            int pagNum = 10;
            string html = "";
            //string pater = "(<a class=\"titlelnk\" href=\"[\\s\\S]*\" target =\"_blank\">)([\\s\\S]*)(</a>)";
            string pater = "<a class=\"titlelnk\" href=\"(.*?)\" target=\"_blank\">(.*?)</a>";
            Regex regex = new Regex(pater);

            int num = 0;
            for (int i = 1; i < pagNum; i++)
            {
           string  url2 = url + "#p" + i;
                try
                {
                    WebRequest request = WebRequest.Create(url2);
                    Stream stream = request.GetResponse().GetResponseStream();
                    using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))
                    {
                        html = reader.ReadToEnd();
                    }
                }
                catch (Exception ex)
                {
                    Console.WriteLine(ex.ToString());
                    Console.ReadKey();
                }
              
                if (!string.IsNullOrEmpty(html))
                {
                    //  Match match = Regex.Match(html, pater);
                    foreach (Match ma in regex.Matches(html))
                    {
                        Match math = Regex.Match(ma.Value,pater);
                        string title = math.Groups[2].Value;
                        num++;
                        Console.WriteLine("" + num + "個標題:\b" +title);
                        File.AppendAllText(@"d:\1.txt",title+ "\r\n");
                    }
                   
                }
            }
            Console.ReadKey();

 

 
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前言:將windows 下開發的 .net 控制台程式(連接Oracle資料庫)部署到 ubuntu 下步驟記錄 2017-09-19 實驗所用機器為虛擬機Ubuntu16.04 amd64 安裝Mono環境 首先添加Mono安裝源: vi /etc/apt/sources.list.d/mono. ...
  • public int UpdateRegdate(tj_book_patient regdatejson) { int temp; SqlParameter[] ps = new SqlParameter[]{ //實體類的欄位和存儲過程的參數對齊 new SqlParameter("@reg_da ...
  • 反射是.NET中的重要機制,通過反射,可以在運行時獲得程式或程式集中每一個類型(包括類、結構、委托、介面和枚舉等)的成員和成員的信息。有了反射,即可對每一個類型瞭如指掌。另外我還可以直接創建對象,即使這個對象的類型在編譯時還不知道。 反射的用途: (1)使用Assembly定義和載入程式集,載入在程 ...
  • 效果圖: C#後臺代碼 ...
  • OAuth 2.0註意事項: 1、 獲取access_token時,請使用POST 1 private static string GetAuthorization(string username, string password) 2 { 3 string authorization = stri ...
  • 泛型(generic)是C#語言2.0和通用語言運行時(CLR)的一個新特性。泛型為.NET框架引入了類型參數(type parameters)的概念。類型參數使得設計類和方法時,不必確定一個或多個具體參數,其的具體參數可延遲到客戶代碼中聲明、實現。這意味著使用泛型的類型參數T,寫一個類MyList ...
  • 這段時間的項目有用到介面,開始不是特別理解介面,只是單單知道介面定義非常簡單,甚至覺得這個介面只是多此一舉(個人開發的時候)。現在開始團隊開發,才發現介面原來是這麼的重要和便捷! 接下來就來談談我這段時間對介面使用的粗淺見解,說的對希望大家贊,說的有誤的地方希望大家多多包涵建議! READY GO! ...
  • 引用ZXing類庫 實現功能: 1生成帶有Logo二維碼 2 將二維碼繪製到圖片上 3 圖片上繪製文字 1 public string CreateQrCode(string md5Str,string name,int sex) 2 { 3 string str = sex == 1? "先生": ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...