框架簡介 目錄結構 項目處理 項目創建處理,裡面是沒有爬蟲的,我們需要通過指令來創建一個爬蟲: cd firstSpider/firstSpider scrapy genspider qiubai “www.qiushibaike.com" 以上指令完事後,就會在firstSpider/firstS ...
框架簡介
- 核心部分: 引擎、下載器、調度器
- 自定義部分: spider(自己建的爬蟲文件)、管道(pipelines.py)
目錄結構
firstSpider firstSpider spiders 爬蟲目錄(寫代碼位置) __init__.py myspider.py 自己建的爬蟲文件,以後的爬蟲代碼寫在這裡 __init__.py items.py 定義數據結構地方 middlewares.py 中間件(瞭解) pipelines.py 管道文件 settings.py 項目配置文件 scrapy.cfg
項目處理
項目創建處理,裡面是沒有爬蟲的,我們需要通過指令來創建一個爬蟲: cd firstSpider/firstSpider scrapy genspider qiubai “www.qiushibaike.com" 以上指令完事後,就會在firstSpider/firstSpider/spiders裡面自動創建一個qiubai.py name: 爬蟲的名字,啟動的時候根據爬蟲的名字啟動項目 allowed_domains:允許的功能變數名稱,就是爬取的時候這個請求要不要發送,如果是該允許功能變數名稱之下的url,就會發送,如果不是,則過濾掉這個請求,這是一個列表,可以寫多個允許的功能變數名稱 start_urls:爬蟲起始url,是一個列表,裡面可以寫多個,一般只寫一個 def parse(self, response): 這個函數非常重要,就是你以後寫代碼的地方,parse函數名是固定的,當收到下載數據的時候會自動的調用這個方法,該方法第二個參數為response,這是一個響應對象,從該對象中獲取html字元串,然後解析之。【註】這個parse函數必須返回一個可迭代對象 (3)定製item.py,其實就是您的數據結構,格式非常簡單,複製粘貼即可