放養的小爬蟲--京東定向爬蟲(AJAX獲取價格數據)

-Advertisement-

放養的小爬蟲京東定向爬蟲(AJAX獲取價格數據) === 筆者聲明：只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址：https://github.com/Erma Wang/Spider 筆者聲明：只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址：

放養的小爬蟲--京東定向爬蟲(AJAX獲取價格數據)

筆者聲明：只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址：https://github.com/Erma-Wang/Spider
筆者聲明：只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址：https://github.com/Erma-Wang/Spider
筆者聲明：只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址：https://github.com/Erma-Wang/Spider

重要的事情說三遍~~~！！！只用於學習交流，私自用於其他途徑，後果自負！！！
github源代碼地址https://github.com/Erma-Wang/Spider(註意，本倉庫還有其他的小爬蟲，本文章講解的是JDSpider···)，別忘了給個star哦@、@
***

Python很強大，50行不到的爬蟲代碼實現京東定向爬蟲，雖然其他語言也可以實現，但是個人還是喜歡Python做做小爬蟲，筆者iOS開發，曾用OC寫過爬蟲，蘋果高度封裝OC語言和強大的第三方庫也不能敵當過Python的便捷！！！好吧，說說爬蟲實現的基本思路吧，還有AJAX。。。

AJAX，非同步載入技術！！！

之前在網上看過很多朋友有一種疑問，為什麼在看京東網頁的源代碼裡面看不到價格或則折扣一類的數據，而在網頁上正常顯示卻能看到？。。。之前我也沒有想到是AJAX，因為我寫寫爬蟲只是業餘愛好吧~~，後來有一次用chrome抓包的時候發現網頁載入完成但是其還在刷新數據，突然恍然大悟！！！AJAX，之前看過一篇帖子的很多朋友都在問京東網頁的源代碼裡面看不到價格的數據，如果您是查找這個問題的讀者，恭喜您，找對地方了！！！

AJAX

AJAX即“Asynchronous Javascript And XML”（非同步JavaScript和XML）,是一種非同步載入技術，那麼，怎麼才能抓到AJAX非同步載入可以的request叻？好吧，這裡只有細心的觀察了，就像一個小偷一樣的~宅在電腦前，偷偷地~偷偷滴~觀察。。。。。。好吧，下麵直接貼上詳圖吧~

是的就是這個鏈接，http://p.3.cn/prices/mgets?skuIds=J_xxxxxx，，只要你在後面輸入商品的id，你就能查詢到商品的折扣價格和正價，這點京東做的一點兒都不好，這個請求居然還是HTTP的GET請求，如果京東內部網路層的工作人員看到這裡，你們也改進改進吧，，畢竟這是你們自己的數據呀~好吧，有了這個url，看到這裡的大家，估計思路也已經出來了~~

爬蟲實現基本思路

本爬蟲使用的是scrapy，是一個定向爬蟲，當然~好像還沒有爬不到的數據，在我的理念里，只要能看到的數據，都能爬取~哈~本篇文章不會講解scrapy的用法，之後有時間會我會寫一寫scrapy的基本使用方法~

Itme

#排名
number = scrapy.Field()
#圖書名字
bookName = scrapy.Field()
#作者
author = scrapy.Field()
#出版社
press = scrapy.Field()
#圖書id
BookID = scrapy.Field()
#正價
price = scrapy.Field()
#折扣價
PreferentialPrice = scrapy.Field()

小爬蟲主體

小爬蟲的腦袋~

設置開始的鏈接start_urls和構造一個入口def parse(self, response)
我用的是xpath來尋找節點，主要抓取每一個商品的全部信息，應該其都在一個li標簽里，看圖~不明白，就看圖~

一個li標簽就代表一個商品，還是看不懂的話自己琢磨去吧~

小爬蟲的身體~

現在就是根據需求，用xpath來匹配每一個需要的數據吧~這裡沒什麼技術含量，不做過多的講解。如果不懂xpath或則正則的小伙伴們，自己去研究吧~有一天你也會變成大神的哦~

小爬蟲的觸鬚~AJAX非同步載入請求~

首先獲取id構造url

json_url = 'http://p.3.cn/prices/mgets?skuIds=J_' + BookID

正則表達式匹配出來要得到的字典

r = requests.get(json_url).text
data = json.loads(r)[0]

提取價格和折扣價格

price = data['m']
PreferentialPrice = data['p']

小爬蟲的消化系統~

yield item在python中yield的用法是很神奇而美妙的，在這裡也不做過多講解，以後有時間我會寫更多的關於python基本語法的文章分享

小爬蟲~爬來爬去爬上爬下~

獲取下一頁的href，然後創建一個遞歸函數，爬來爬去爬上爬下~

yield Request(nextLink,callback=self.parse)

小爬蟲的啟動裝置

不好意思，MAC的小伙伴在終端是跑步起來的，WIN系統的小伙伴有福了~能執行，也就是main文件的命令，具體怎麼操作，問度娘~

from scrapy import cmdline
cmdline.execute("scrapy crawl JDSpider".split())

小爬蟲誕生~

Ok，看看效果吧~

小爬蟲準本就緒

開始爬取~正在激烈的爬取~

爬取結束~生成一坨~一坨~一坨~那啥吧~

看看成果吧~

小爬蟲使用小提示~

scrapy crawl JDSpider，，最後加的是爬蟲name，而不是項目名字~
生成的CSV文件可能是亂碼，請用可以更改編碼格式的工具更改編碼格式並保存~
需要的環境自己配置，跑不起來報錯，請百度，爬蟲筆者已經親測，可以跑~
本爬蟲沒有設置代理，因為用於學習交流吧~
本爬蟲已經更改請求頭裡的USER_AGENT，請改為自己的吧
最後項目已經上傳到github，github源代碼地址https://github.com/Erma-Wang/Spider(註意，本倉庫還有其他的小爬蟲，本文章講解的是JDSpider···)，別忘了給個star哦@、@
還要瞭解更多的小爬蟲的朋友們可以關註本博，併在本博的spider中找到其他的小爬蟲，筆者會定時更新小爬蟲的~

重要的事情再說三遍：

本文和本爬蟲只用於學習交流，不用於其他途徑，後果自負~！~！

**轉載請註明來自吃飯睡覺擼碼的博客 http://www.cnblogs.com/Erma-king/，並包含相關鏈接。**

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

String,StringBuffer與StringBuilder的區別??[轉]

String 字元串常量StringBuffer 字元串變數（線程安全）StringBuilder 字元串變數（非線程安全）簡要的說， String 類型和 StringBuffer 類型的主要性能區別其實在於 String 是不可變的對象, 因此在每次對 String 類型進行改變的時候其實都等
frame中隱藏橫向滾動條

設置frame的scrolling="yes",在右側頁面的body裡加入： style="overflow-x:hidden;" 如：<body style="overflow-x:hidden;">
使用Enitity Framework實現增刪改查服務中的一些通用思路

添加→ 方法參數中有一個有關添加視圖模型類型的形參，比如vm→ 根據vm的某個屬性，比如Name判斷在上下文中是否存在，如果不存在就拋EntityNotFoundException異常→ 判斷vm所依賴的外鍵那對應的那個實體是否存在，比如vm中有各PoductCategoryId外鍵，就判斷下上
C++學習之DLL註入
Python中文亂碼問題

字元串在Python內部的表示是unicode編碼，因此，在做編碼轉換時，通常需要以unicode作為中間編碼，即先將其他編碼的字元串解碼（decode）成unicode，再從unicode編碼（encode）成另一種編碼。 decode的作用是將其他編碼的字元串轉換成unicode編碼，如str1
php常用圖片處理類
關於C++的STRING的成員函數彙總

string類的構造函數： string(const char *s); //用c字元串s初始化 string(int n,char c); //用n個字元c初始化此外，string類還支持預設構造函數和複製構造函數，如string s1；string s2="hello"；都是正確的寫法。當構造
SpringMVC4 + Spring + MyBatis3 基於註解的最簡配置

本文使用最新版本(4.1.5)的springmvc+spring+mybatis，採用最間的配置方式來進行搭建。 1. web.xml 我們知道springmvc是基於Servlet: DispatcherServlet來處理分發請求的，所以我們需要先在web.xml文件中配置DispatcherS