爬取京東商品分類和鏈接

来源:http://www.cnblogs.com/rookie-c/archive/2016/08/26/5808817.html
-Advertisement-
Play Games

最近因為工作比較忙也沒有更新隨筆。昨天下班因為身體不舒服,代碼也沒有碼多少。說碼代碼也還算不上,畢竟是自己無聊寫點小腳本自娛自樂。 今天這篇主要的知識點是使用Python的BeautifulSoup進行多層的遍歷。 筆者閑來無事寫了個小爬蟲,主要是爬取京東商品分類以及對應的連接 如圖所示。只是一個簡 ...


最近因為工作比較忙也沒有更新隨筆。昨天下班因為身體不舒服,代碼也沒有碼多少。說碼代碼也還算不上,畢竟是自己無聊寫點小腳本自娛自樂。

今天這篇主要的知識點是使用Python的BeautifulSoup進行多層的遍歷。

筆者閑來無事寫了個小爬蟲,主要是爬取京東商品分類以及對應的連接

如圖所示。只是一個簡單的哈,不是爬取裡面的隱藏的東西。

from bs4 import BeautifulSoup as bs
import requests
headers = {
"host": "www.jd.com",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
}
session = requests.session()
def get_url():
renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')
for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
print(i.get_text(),':',i.get('href'))
get_url()

運行這段代碼以及達到了我們的目的。

我們來解讀一下這段代碼。
首先我們要訪問到京東的首頁。
然後通過BeautifulSoup對訪問到的首頁進行解析。
這個時候,我們就要定位元素,來獲取我們需要的東西了。
在瀏覽器中通過F12,我們可以看到下圖所示的東西:

我們來看看下麵這句代碼:

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})
這一行代碼完全滿足我們的需求,首先用find方法,定位到了class=“dd-inner”的div,然後使用find_all對該標簽下所有的a標簽。
最後,我想列印出所有的商品分類以及對應的鏈接,於是,我使用了i.
get_text()i.get('href')的方法終於獲取到了商品分類和對應的鏈接。

其實不是很難,主要是要用對方法。筆者因為是初學方法沒有用對。花了差不多兩天時間才搞定。這裡也是告訴大家,可以使用find().find_all()的方法進行多層的遍歷。



您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • WCF如何實現對於Rest支持的呢?弄清這一點是學習Rest WCF的關鍵。 為了實現於對Rest的支持,在 .NET Framework 中,WCF 在 System.ServiceModel.Web 組件中新增了編程模型和一些基礎架構部件。WCF Web編程模型幾個重要類型就是: ...
  • 自古以來,人類的進步都是依賴於工具的進步,從刀耕火種,到使用青銅器,再到現在的科技,每一次都使我們的工作效率提高了無數倍,所以一個好的工具能使我們提高無數倍的工作效率,下麵,我就根據自己簡單的總結一下我們到底要有什麼樣的裝備。這裡現在只寫必須的,因為有太多的好的軟體了,以後再分類補充吧。 一,操作系 ...
  • 在WPF中使用依賴註入的方式創建視圖 0x00 問題的產生 互聯網時代桌面開發真是越來越少了,很多應用都轉到了瀏覽器端和移動智能終端,相應的軟體開發上的新技術應用到桌面開發的文章也很少。我之前主要做WPF,今年開始學習Web應用開發,於是就接觸到了.NET Core,其中的很多概念很值得在桌面開發中 ...
  • 昨天抽空寫了一個wcf的創建和宿主程式的創建文章,下麵也有很多園友給了評論,在此謝謝大家給了我繼續記錄我的摸爬滾打之路信心……抱拳! 上次的文章《我的WCF摸爬滾打之路(1)》中寫到,在測試wcf例子的時候遇到很多稀奇古怪的異常,準備列個專題寫的。無奈學習不深,實在不敢潦草為之。今天就隨便說說吧!說 ...
  • 本文介紹壓縮庫SharpZipLib的使用,提供封裝類的源代碼,以及測試UI的源代碼。 ...
  • 轉至:http://www.cnblogs.com/fonour/p/ajaxFileUpload.html 0、下載 http://files.cnblogs.com/files/fonour/ajaxfileupload.js 1、引用ajaxfileupload.js 2、頁面添加類型為fil ...
  • 對於c++11來說移動語義是一個重要的概念,一直以來我對這個概念都似懂非懂。最近翻翻資料感覺突然開竅,因此記下。其實搞懂之後就會發現這個概念很簡單,並無什麼高深的地方。 先說說右值引用。右值一般指的是表示式中的臨時變數,在c++中臨時變數在表達式結束後就被銷毀了,之後程式就無法再引用這個變數了。但是 ...
  • 今天做了一下哲學家就餐問題。 附件 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...