python爬取並下載麥子學院所有視頻教程

-Advertisement-

一、主要思路scrapy爬取是有課程地址及名稱使用multiprocessing進行下載就是為了爬點視頻，所以是簡單的代碼堆砌想而未實行，進行共用的方式二、文件說明itemsscray欄位piplines.py存儲資料庫setting.py scrapy配置需要註意的是DEFAULT_REQUES...

一、主要思路

scrapy爬取是有課程地址及名稱
使用multiprocessing進行下載
就是為了爬點視頻，所以是簡單的代碼堆砌
想而未實行，進行共用的方式

二、文件說明

itemsscray欄位
piplines.py存儲資料庫
setting.py scrapy配置需要註意的是DEFAULT_REQUEST_HEADERS的設置，需要模擬登錄
mz.py是主要爬蟲都是基本的爬蟲功能，css+xpath+正則
start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的，可根據需要進行，或者全部，
本想不存儲進資料庫，直接在mz.py進行下載，但考慮到位會影響scrapy原有的性能，單獨進行下載

down.py 使用multiprocessing進行下載原本想著動態監聽scrapy在資料庫的中的結果，想實現進程的共用，調試多次還出現問題所以直接用Pool.Map（）這種比較粗暴的方式，
mz.json現存取進json，但考慮到來回操作json文件，影響效率，所以改用資料庫

三、結果

源碼 :https://yunpan.cn/crjn7J97xUD8F 訪問密碼 6219
視頻地址：https://yunpan.cn/crjXKLGnkpzPk 訪問密碼 6c15

來自為知筆記(Wiz)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

JavaSE思維導圖(一)
選擇排序演算法

選擇排序演算法的思想類似於冒泡排序，每次從未排序的序列中選出最大或者是最小值，放在數組的頭部或者是尾部。只不過選擇演算法不是像冒泡演算法兩兩進行比較，而是每次迴圈未排序的數組，從中找出最大或者是最小值的索引，然後與未排序的數組的頭部或者尾部進行交換。直到最後只剩未排序數組只剩下一個數時，排序結束。java...
PHP_基礎

目錄數組函數類和對象字元串操作會話控制時間和日期異常處理一、數組 1、索引數組header("Content-Type: text/html; charset=utf-8");//創建空數組$str = array();//索引數組：數組的鍵是整數的數組，並且鍵的整數順序是從0開始，依次類推。$f....
python之路-基礎篇-day3

今日所講知識點總結：1、set集合2、collectionsPython擁有一些內置的數據類型，比如str, int, list, tuple, dict等， collections模塊在這些內置數據類型的基礎上，提供了幾個額外的數據類型：1）Counter：計數器2）OrderedDict：有序字...
基於live555的一個簡單RTSP伺服器

1，編譯live555源碼目錄下的BasicUsageEnvironment、groupsock、liveMedia、UsageEnvironment四個工程生成相應的庫文件；目錄結構如下：2，包含上面四個工程目錄下的include目錄文件和生成的庫文件，編譯mediaServer目錄下的文件，會生...
用java開發微信公眾號：接收和被動回覆普通消息（三）

上篇說完瞭如何接入微信公眾號，本文說一下微信公眾號的最基本功能：普通消息的接收和回覆。說到普通消息，那麼什麼是微信公眾號所定義的普通消息呢，微信開發者文檔中提到的接收的普通消息包括如下幾類：1.文本消息2.圖片消息3.語音消息4.視頻消息5.小視頻消息6.地理位置消息7.鏈接消息（被動回覆的消息）被...
線程的理解

說到線程就不得說進程。進程進程對應一個程式，每個進程對應一定的記憶體地址空間，並且只能使用它自己的記憶體空間，各個進程間互不幹擾。並且進程保存了程式每個時刻的運行狀態，這樣就為進程切換提供了可能。當進程暫時時，它會保存當前進程的狀態（比如進程標識、進程的使用的資源等），在下一次重新切換回來時，便...
HDU 1520 Anniversary Party

題目在這裡：http://acm.hdu.edu.cn/showproblem.php?pid=1520題解，這是我的備忘錄，沒有任何註釋。 1 #include 2 #include 3 #include 4 5 using namespace std; 6 7 8 /* 9 dp[i...