第一天:項目搭建

来源:http://www.cnblogs.com/AssertionBird/archive/2016/11/24/6098594.html
-Advertisement-
Play Games

一、前言 1.0、由於沒有寫過那種通用爬蟲的框架,就四處搜了一下,也找到很多資料,這裡就採用了其中一個大神介紹的框架模式。具體引用地址我忘記了,這裡就不貼出來了。 2.0、之前說的驗證碼模塊也停了,到時候集合在這個分類一面一起說 二、正文 2.1、框架設計圖 2.2、由上面這張圖可以看出各個模塊之間 ...


一、前言

  1.0、由於沒有寫過那種通用爬蟲的框架,就四處搜了一下,也找到很多資料,這裡就採用了其中一個大神介紹的框架模式。具體引用地址我忘記了,這裡就不貼出來了。

  2.0、之前說的驗證碼模塊也停了,到時候集合在這個分類一面一起說

二、正文

  2.1、框架設計圖

  

  2.2、由上面這張圖可以看出各個模塊之間的關係,具體描述我也複製粘貼過來了

  ①、Scheduler:負責URL的調度,可以實現如Queue, PriorityScheduler, RedisScheduler等等

  ②、Downloader: 負責下載HTML,可以實現如HttpDownloader, 瀏覽器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等

  ③、PageProcesser: 負責HTML解析及新的符合規則的URL解析

  ④、Pipeline: 負責數據的存儲, 可以實現如MySql, MySqlFile,MSSQL,MongoDb等等

三、其他

  3.1、整個程式的設計我是這樣打算的:

  ①、使用WPF開發(主要是因為界面可以比較酷炫)

  ②、暫時想到的主體功能有:數據採集、數據保存、數據過濾、模擬登陸(包括了數據發佈)、驗證碼識別、當然允許的話可以放到雲上...

  ③、使用要方便簡單、可視化操作

  ④、嗯,就先這麼多吧,最重要的還是現實,後期可以慢慢擴展

  3.2、項目涉及的內容可能有:

  ①、正則表達式、Xpath等解析Html

  ②、驗證碼識別

  ③、數據加密、解密

  ④、資料庫操作

  ⑤、很多很多的內容,相信等做完這個項目,我將會有一個質的飛躍....


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 問題 怎麼樣可以使用更貼近資源(Controller,Action)的方式定義路由。 解決方案 可以使用屬性路由直接在資源級別聲明路由。只要簡單的在 Action 上使用屬性路由 RouteAttribute,然後傳一個相關路由模板就可以。屬性路由與集中式路由在路由模板含義上基本是一樣的,所有路由參 ...
  • 在對ASP.NET Core管道中關於依賴註入的兩個核心對象(ServiceCollection和ServiceProvider)有了足夠的認識之後,我們將關註的目光轉移到編程層面。在ASP.NET Core應用中基於依賴註入的編程主要涉及到兩個方面,它們分別是將服務註冊到ServiceCollec... ...
  • 本月16號,MS發佈了 .NET Core 1.1。作為一個用貫MS產品的小盆友,我第一時間就把相關的安裝包下載下來了,然後果斷安裝(入坑)。 我猜你來看這篇博客可能遇到了和我一樣的問題。 問題0:正確的安裝順需 正確的順序在MS的dotnet Core官網上可以找到,請根據自己的VS版本對號入座。 ...
  • 本文版權歸博客園和作者吳雙本人共同所有,轉載和爬蟲請註明原文地址: www.cnblogs.com/tdws 寫在前面 在後臺介面開發中,介面文檔是必不可少的。在複雜的業務當中和多人對接的情況下,簡單的介面文檔又不能滿足需求,試想你的單應用後臺有幾十個模塊,幾百甚至更多的介面,又有上百個ViewMo ...
  • 一、ASP.NET 中的 Web API [水煮 ASP.NET Web API2 方法論](1-1)在MVC 應用程式中添加 ASP.NET Web API 與 ASP.NET MVC 在同一個進程中使用 ASP.NET WEB API [水煮 ASP.NET Web API2 方法論](1-2) ...
  • 這幾天在Python程式員的微信訂閱號中總是見到yield的關鍵字,才想起來在C#中也是有yield,但是只是知道有,從來沒有瞭解過他的用法,今天有時間就來看看是怎麼使用的。剛開始肯定就是搜索一下用法了,找到兩篇說明示例,一是 C# 中的"yield"使用,第二個是MSDN的官方api yield( ...
  • 這篇文章主要介紹了C#中AS和IS關鍵字的用法的相關資料,需要的朋友可以參考下 ...
  • 頁面引用相應的js以及css 因為SpreaJS是用jquery操作的所以要引用一個jquery的js,第二個js以及最後的css是SpreaJS本身需要引用的,第三個js是做列印才會用到的。 html里只需要放一個div就可以了,相當於SpreaJS的容器。 <div id="ss" style= ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...