一、前言 1.0、由於沒有寫過那種通用爬蟲的框架,就四處搜了一下,也找到很多資料,這裡就採用了其中一個大神介紹的框架模式。具體引用地址我忘記了,這裡就不貼出來了。 2.0、之前說的驗證碼模塊也停了,到時候集合在這個分類一面一起說 二、正文 2.1、框架設計圖 2.2、由上面這張圖可以看出各個模塊之間 ...
一、前言
1.0、由於沒有寫過那種通用爬蟲的框架,就四處搜了一下,也找到很多資料,這裡就採用了其中一個大神介紹的框架模式。具體引用地址我忘記了,這裡就不貼出來了。
2.0、之前說的驗證碼模塊也停了,到時候集合在這個分類一面一起說
二、正文
2.1、框架設計圖
2.2、由上面這張圖可以看出各個模塊之間的關係,具體描述我也複製粘貼過來了
①、Scheduler:負責URL的調度,可以實現如Queue, PriorityScheduler, RedisScheduler等等
②、Downloader: 負責下載HTML,可以實現如HttpDownloader, 瀏覽器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等
③、PageProcesser: 負責HTML解析及新的符合規則的URL解析
④、Pipeline: 負責數據的存儲, 可以實現如MySql, MySqlFile,MSSQL,MongoDb等等
三、其他
3.1、整個程式的設計我是這樣打算的:
①、使用WPF開發(主要是因為界面可以比較酷炫)
②、暫時想到的主體功能有:數據採集、數據保存、數據過濾、模擬登陸(包括了數據發佈)、驗證碼識別、當然允許的話可以放到雲上...
③、使用要方便簡單、可視化操作
④、嗯,就先這麼多吧,最重要的還是現實,後期可以慢慢擴展
3.2、項目涉及的內容可能有:
①、正則表達式、Xpath等解析Html
②、驗證碼識別
③、數據加密、解密
④、資料庫操作
⑤、很多很多的內容,相信等做完這個項目,我將會有一個質的飛躍....