PythonCrawl自學日誌（3）_ZenDei技術網路在線

PythonCrawl自學日誌（3）

-Advertisement-

2016年9月21日09:21:431.爬蟲的抓取周期:（1）首先生成初始請求爬第一個url,並指定一個回調函數被稱為與下載這些請求的響應。（2）第一個請求執行通過調用 start_requests()方法(預設情況下)生成 Request中指定的url start_urls和 parse方法作為請 ...

2016年9月21日09:21:43
1.爬蟲的抓取周期:
（1）首先生成初始請求爬第一個url,並指定一個回調函數被稱為與下載這些請求的響應。
（2）第一個請求執行通過調用 start_requests()方法(預設情況下)生成 Request中指定
的url start_urls和 parse方法作為請求的回調函數。
（3）在回調函數中,解析響應(網頁),並返回與提取的數據字典, Item對象, Request這
些對象的對象,或一個iterable。這些請求還將包含一個回調(也許相同),將由Scrapy然後
下載他們的反應由指定的回調。
（4）在回調函數中,您解析頁面內容,通常使用選擇器(但您還可以使用BeautifulSoup,
lxml或其他機制你喜歡)與解析數據並生成項目。
（5）最後,返回的物品爬蟲通常會保存到資料庫(在一些項目管道)或寫入一個文件使用
Feed exports.
2.爬蟲屬性值設定
Spider：
（1）name 爬蟲名字
（2）allowed_domains 爬蟲允許的功能變數名稱
（3）start_urls 網址的列表
（4）custom_settings 爬蟲的設置（包括了下載中間件、兩次下載間隙、下載超時、下載最大值
日誌開啟、日誌文件位置、日誌等級（預設debug）、
標準輸出是否存入日誌、存儲debug、隨機下載延遲、用戶代理（流浪器））
（5）crawler 綁定當前爬蟲的Crawler對象
（6）settings Settings類的一個實例，包含成員函數（from_crawler(crawler,*args,**kwargs)創建爬蟲、
start_request()：無指定URL時調用、
make_requests_from_url（url）為url生成start_url、
parse（response）處理爬蟲得到的數據、
log（message[level,component]）、
closed（原因））
CrawlSpider：通用型爬蟲，繼承Spider
（1）rules rule的列表，定義爬蟲特定行為
rule： scrapy.spiders.Rule(link_extractor(鏈接提取器),callback=None（是否回調）,
cb_kwargs=None(傳遞給回調函數的參數(keyword argument)的字典),
follow=None(指定了根據該規則從response提取的鏈接是否需要跟進),
process_links=None(過濾鏈接),
process_request=None（提取到每個request時都會調用該函數，過濾request）)
XMLFeedSpider：通過迭代各個節點分析XML源
（1）iterator:用於確定使用哪個迭代器的字元串屬性
iternodes：推薦，基於正則表達式的快速迭代器
xml 使用 Selector 的迭代器，使用DOM存取，數據量大時會出現問題
html 使用 Selector 的迭代器，使用DOM存取，數據量大時會出現問題
（2）itertag 迭代起點字元串
（3）namespace 一個由（prefix，url）元組所組成的list，定義改文檔中會被Spider處理的可用的namespace，
prefix 及 uri 會被自動調用 register_namespace() 生成namespace
（4）adapt_response(response) 接受一個response並返回一個response(可以相同也可以不同)
（5）parse_node（response，selector）節點符合提供的標簽名時(itertag)該方法被調用,
返回一個 Item 對象或者 Request 對象或者一個包含二者的可迭代對象(iterable)
（6）process_results(response,results) spider返回結果(item或request)時該方法被調用，返回一個結果的列表

CSVFeedSpider：類似於XMLFeedSpider的爬蟲，除了遍歷模式為按其行遍歷，每次迭代是使用parse_row()
（1）delimiter csv文件中用於區分欄位的分隔符，預設‘,’
（2）headers csv文件中包含用來提取欄位的行的列表
（3）parse_row(response,row) 可以覆蓋 adapt_response 及 process_results 方法來進行預處理(pre-processing)
及後(post-processing)處理
SitemapSpider:通過SiteMaps（網站地圖）來發現爬取的URL，能從robotos.txt中獲取sitemap的url
（1）sitemap_urls 爬取的url的sitemap的url列表(list)。您也可以指定為一個 robots.txt ,
spider會從中分析並提取url
（2）sitemap_rules 一個包含 (regex, callback) 元組的列表(list)
regex 匹配網站地圖提供的URL的正則表達式
callback 指定了匹配正則表達式的url的處理函數
（3）sitemap_follow 匹配要跟進的sitemap的正則表達式的列表
（4）sitemap_alternate_links url有可選連接時，是否跟進，預設關閉

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

電腦程式的思維邏輯 (38) - 剖析ArrayList

本節探討Java中的容器類ArrayList，它有哪些方法？內部是如何實現的？有什麼特點？與數組如何轉換？迭代是什麼？為什麼要有它？內部是如何實現的？有哪些易犯的錯誤？Collection/List/RandomAccess都用於什麼目的? ...
Java一步一步構建web系統在IDEA下用Maven搭建多模塊項目

1、需求做一個項目會有很多模塊，主要是方便復用，通過各個模塊之間聚合。模塊也可以獨立出來，如公用類庫，也可以在做其它項目中使用。該文的實例會有兩個模塊：分別為dallin web模塊，dallin utils工具類模塊 2、新建一個Maven父項目 1. 打開IDEA工具，通過file——new— ...
從零開始學 Java - 利用 Nginx 負載均衡實現 Web 伺服器更新不影響訪問

還記得那些美妙的夜晚嗎你洗洗打算看一個小電影就睡了，這個時候突然想起來今天晚上是伺服器更新的日子，你要在凌晨時分去把最新的代碼更新到伺服器，以保證明天大家一覺醒來打開網站，發現昨天的 Bug 都不見了。這時候你瞬間沒有了看電影的興緻了，這應該就是一個運維人員的日常了吧！為什麼要在凌晨時分去更新服 ...
golang bytes.Buffer Reset

上面運行結果是 [49 50][51 50] 。 --> 結論： bytes.Buffer Reset之後，如果再寫入新的數據，如果數據的長度沒有超過Reset之前緩衝區的長度，那麼Buffer內部不會重新開闢記憶體，也就是說，寫入的數據會覆蓋之前的數據。在本例中，這裡【之前的數據】就是那個 b ...
spring4.1.3+springmvc+mybatis3.2.1整合

註意：這裡使用了mybatis3.2.1版本，剛開始用了3.4.1的版本，會報一個很奇怪的錯(java.lang.AbstractMethodError: org.mybatis.spring.transaction.SpringManagedTransaction.getTimeout()Ljav ...
PHP的mysqli_query參數MYSQLI_STORE_RESULT和MYSQLI_USE_RESULT的區別

這篇文章主要介紹了PHP的mysqli_query參數MYSQLI_STORE_RESULT和MYSQLI_USE_RESULT的區別,本文給出了這兩個參數的5個區別,需要的朋友可以參考下雖然nosql變得流行，但是我感覺sql還是主流今天在翻php manul的時候，發現mysqli 的查詢可以 ...
WNMP集成環境下配置thinkPHP

在網上查了許多解決方法,下麵是自己測試過能行的方法,只需在nginx.conf文件添加內容就可以了. 打開nginx.conf文件 ...
java線程公平鎖 ReentrantLock(boolean fair)

獨占鎖 -- 鎖在一個時間點只能被一個線程鎖占有。根據鎖的獲取機制，它又劃分為“公平鎖”和“非公平鎖”。公平鎖，是按照通過CLH等待線程按照先來先得的規則，公平的獲取鎖；而非公平鎖，則當線程要獲取鎖時，它會無視CLH等待隊列而直接獲取鎖。獨占鎖的典型實例子是ReentrantLock，此外，Reen... ...