放養的小爬蟲--京東定向爬蟲(AJAX獲取價格數據)

来源:http://www.cnblogs.com/Erma-king/archive/2016/03/16/5281967.html
-Advertisement-
Play Games

放養的小爬蟲 京東定向爬蟲(AJAX獲取價格數據) === 筆者聲明:只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址:https://github.com/Erma Wang/Spider 筆者聲明:只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址:


放養的小爬蟲--京東定向爬蟲(AJAX獲取價格數據)

筆者聲明:只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址:https://github.com/Erma-Wang/Spider
筆者聲明:只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址:https://github.com/Erma-Wang/Spider
筆者聲明:只用於學習交流,不用於其他途徑。源代碼已上傳github。githu地址:https://github.com/Erma-Wang/Spider

重要的事情說三遍~~~!!!只用於學習交流,私自用於其他途徑,後果自負!!!
github源代碼地址https://github.com/Erma-Wang/Spider(註意,本倉庫還有其他的小爬蟲,本文章講解的是JDSpider···),別忘了給個star哦@、@
***

Python很強大,50行不到的爬蟲代碼實現京東定向爬蟲,雖然其他語言也可以實現,但是個人還是喜歡Python做做小爬蟲,筆者iOS開發,曾用OC寫過爬蟲,蘋果高度封裝OC語言和強大的第三方庫也不能敵當過Python的便捷!!!好吧,說說爬蟲實現的基本思路吧,還有AJAX。。。

AJAX,非同步載入技術!!!

之前在網上看過很多朋友有一種疑問,為什麼在看京東網頁的源代碼裡面看不到價格或則折扣一類的數據,而在網頁上正常顯示卻能看到?。。。之前我也沒有想到是AJAX,因為我寫寫爬蟲只是業餘愛好吧~~,後來有一次用chrome抓包的時候發現網頁載入完成但是其還在刷新數據,突然恍然大悟!!!AJAX,之前看過一篇帖子的很多朋友都在問京東網頁的源代碼裡面看不到價格的數據,如果您是查找這個問題的讀者,恭喜您,找對地方了!!!

AJAX

AJAX即“Asynchronous Javascript And XML”(非同步JavaScript和XML),是一種非同步載入技術,那麼,怎麼才能抓到AJAX非同步載入可以的request叻?好吧,這裡只有細心的觀察了,就像一個小偷一樣的~宅在電腦前,偷偷地~偷偷滴~觀察。。。。。。好吧,下麵直接貼上詳圖吧~
1
是的就是這個鏈接,http://p.3.cn/prices/mgets?skuIds=J_xxxxxx,,只要你在後面輸入商品的id,你就能查詢到商品的折扣價格和正價,這點京東做的一點兒都不好,這個請求居然還是HTTP的GET請求,如果京東內部網路層的工作人員看到這裡,你們也改進改進吧,,畢竟這是你們自己的數據呀~好吧,有了這個url,看到這裡的大家,估計思路也已經出來了~~


爬蟲實現基本思路

本爬蟲使用的是scrapy,是一個定向爬蟲,當然~好像還沒有爬不到的數據,在我的理念里,只要能看到的數據,都能爬取~哈~本篇文章不會講解scrapy的用法,之後有時間會我會寫一寫scrapy的基本使用方法~

Itme

#排名
number = scrapy.Field()
#圖書名字
bookName = scrapy.Field()
#作者
author = scrapy.Field()
#出版社
press = scrapy.Field()
#圖書id
BookID = scrapy.Field()
#正價
price = scrapy.Field()
#折扣價
PreferentialPrice = scrapy.Field()

小爬蟲主體

小爬蟲的腦袋~

設置開始的鏈接start_urls和構造一個入口def parse(self, response)
我用的是xpath來尋找節點,主要抓取每一個商品的全部信息,應該其都在一個li標簽里,看圖~不明白,就看圖~
1
一個li標簽就代表一個商品,還是看不懂的話自己琢磨去吧~

小爬蟲的身體~

現在就是根據需求,用xpath來匹配每一個需要的數據吧~這裡沒什麼技術含量,不做過多的講解。如果不懂xpath或則正則的小伙伴們,自己去研究吧~有一天你也會變成大神的哦~

小爬蟲的觸鬚~AJAX非同步載入請求~

首先獲取id構造url

json_url = 'http://p.3.cn/prices/mgets?skuIds=J_' + BookID

正則表達式匹配出來要得到的字典

r = requests.get(json_url).text
data = json.loads(r)[0]

提取價格和折扣價格

price = data['m']
PreferentialPrice = data['p']

小爬蟲的消化系統~

yield item在python中yield的用法是很神奇而美妙的,在這裡也不做過多講解,以後有時間我會寫更多的關於python基本語法的文章分享

小爬蟲~爬來爬去爬上爬下~

獲取下一頁的href,然後創建一個遞歸函數,爬來爬去爬上爬下~

yield Request(nextLink,callback=self.parse)

小爬蟲的啟動裝置

不好意思,MAC的小伙伴在終端是跑步起來的,WIN系統的小伙伴有福了~能執行,也就是main文件的命令,具體怎麼操作,問度娘~

from scrapy import cmdline
cmdline.execute("scrapy crawl JDSpider".split())

小爬蟲誕生~

Ok,看看效果吧~

小爬蟲準本就緒

1

開始爬取~正在激烈的爬取~

1

爬取結束~生成一坨~一坨~一坨~那啥吧~

1

看看成果吧~

1

小爬蟲使用小提示~

  • scrapy crawl JDSpider,,最後加的是爬蟲name,而不是項目名字~
  • 生成的CSV文件可能是亂碼,請用可以更改編碼格式的工具更改編碼格式並保存~
  • 需要的環境自己配置,跑不起來報錯,請百度,爬蟲筆者已經親測,可以跑~
  • 本爬蟲沒有設置代理,因為用於學習交流吧~
  • 本爬蟲已經更改請求頭裡的USER_AGENT,請改為自己的吧
  • 最後項目已經上傳到github,github源代碼地址https://github.com/Erma-Wang/Spider(註意,本倉庫還有其他的小爬蟲,本文章講解的是JDSpider···),別忘了給個star哦@、@
  • 還要瞭解更多的小爬蟲的朋友們可以關註本博,併在本博的spider中找到其他的小爬蟲,筆者會定時更新小爬蟲的~

重要的事情再說三遍:

本文和本爬蟲只用於學習交流,不用於其他途徑,後果自負~!~!

本文和本爬蟲只用於學習交流,不用於其他途徑,後果自負~!~!

本文和本爬蟲只用於學習交流,不用於其他途徑,後果自負~!~!

**轉載請註明來自吃飯睡覺擼碼的博客 http://www.cnblogs.com/Erma-king/,並包含相關鏈接。**


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • String 字元串常量StringBuffer 字元串變數(線程安全)StringBuilder 字元串變數(非線程安全) 簡要的說, String 類型和 StringBuffer 類型的主要性能區別其實在於 String 是不可變的對象, 因此在每次對 String 類型進行改變的時候其實都等
  • 設置frame的scrolling="yes",在右側頁面的body裡加入: style="overflow-x:hidden;"  如:<body style="overflow-x:hidden;">
  •   添加→ 方法參數中有一個有關添加視圖模型類型的形參,比如vm→ 根據vm的某個屬性,比如Name判斷在上下文中是否存在,如果不存在就拋EntityNotFoundException異常→ 判斷vm所依賴的外鍵那對應的那個實體是否存在,比如vm中有各PoductCategoryId外鍵,就判斷下上
  • 字元串在Python內部的表示是unicode編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼,即先將其他編碼的字元串解碼(decode)成unicode,再從unicode編碼(encode)成另一種編碼。 decode的作用是將其他編碼的字元串轉換成unicode編碼,如str1
  • string類的構造函數: string(const char *s); //用c字元串s初始化 string(int n,char c); //用n個字元c初始化 此外,string類還支持預設構造函數和複製構造函數,如string s1;string s2="hello";都是正確的寫法。當構造
  • 本文使用最新版本(4.1.5)的springmvc+spring+mybatis,採用最間的配置方式來進行搭建。 1. web.xml 我們知道springmvc是基於Servlet: DispatcherServlet來處理分發請求的,所以我們需要先在web.xml文件中配置DispatcherS
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...