一、主要思路scrapy爬取是有課程地址及名稱使用multiprocessing進行下載就是為了爬點視頻,所以是簡單的代碼堆砌想而未實行,進行共用的方式二、文件說明itemsscray欄位piplines.py存儲資料庫setting.py scrapy配置 需要註意的是DEFAULT_REQUES...
一、主要思路
- scrapy爬取是有課程地址及名稱
- 使用multiprocessing進行下載
- 就是為了爬點視頻,所以是簡單的代碼堆砌
- 想而未實行,進行共用的方式
二、文件說明
- itemsscray欄位
- piplines.py存儲資料庫
- setting.py scrapy配置 需要註意的是DEFAULT_REQUEST_HEADERS的設置,需要模擬登錄
- mz.py是主要爬蟲 都是基本的爬蟲功能,css+xpath+正則
- start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的,可根據需要進行,或者全部,
- 本想不存儲進資料庫,直接在mz.py進行下載,但考慮到位會影響scrapy原有的性能,單獨進行下載
- down.py 使用multiprocessing進行下載 原本想著動態監聽scrapy在資料庫的中的結果,想實現進程的共用,調試多次還出現問題所以直接用Pool.Map()這種比較粗暴的方式,
- mz.json現存取進json,但考慮到來回操作json文件,影響效率,所以改用資料庫
三、結果
- 源碼 :https://yunpan.cn/crjn7J97xUD8F 訪問密碼 6219
- 視頻地址:https://yunpan.cn/crjXKLGnkpzPk 訪問密碼 6c15