使用HtmlAgilityPack開發爬蟲篩選HTML時,關於xpath的坑

来源:https://www.cnblogs.com/shapman/archive/2020/02/29/12382476.html
-Advertisement-
Play Games

其實這個坑呢,說實話是非常的有意思,因為當時這個坑弄得我甚至是以為編譯器壞了。 昨天我在寫關於豆瓣的爬蟲的時候,有這樣一個需求: 我想抓這個a標簽,拿他的鏈接地址。這個時候在瀏覽器里右鍵該標簽,複製其xpath結果如下: //*[@id="content"]/div/div[1]/div[2]/ta ...


其實這個坑呢,說實話是非常的有意思,因為當時這個坑弄得我甚至是以為編譯器壞了。

昨天我在寫關於豆瓣的爬蟲的時候,有這樣一個需求:

 

 我想抓這個a標簽,拿他的鏈接地址。這個時候在瀏覽器里右鍵該標簽,複製其xpath結果如下:

//*[@id="content"]/div/div[1]/div[2]/table/tbody/tr[2]/td[1]/a

然後在代碼中,則按照這個xpath路徑去找,發現根本就沒用,什麼都找不到。

然後後面在調試的時候,我故意在即時視窗里,這樣子去試驗這條xpath路徑:

我先檢測  //*[@id="content"]  這樣能不能找到內容,然後發現可以;

然後檢測  //*[@id="content"]/div  發現也可以;

一直到     //*[@id="content"]/div/div[1]/div[2]/table/tbody  這個的時候,發現返回 null ,找不到?

最後我嘗試把 tbody 去掉,直接用 //*[@id="content"]/div/div[1]/div[2]/table/tr[2]/td[1]/a把tbody刪了

發現終於得到了我想要的那個標簽節點。

總結

其實這個坑就是說,xpath裡面不能帶 tbody ,碰到這個節點,直接跳過,進行到下一節點去


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在Java發展的里程碑上,有三個版本做出的改動,是革命性的 為什麼說是革命性的呢? 因為這三個版本所推出的有些新機制,在之後的Java框架開發、新類的產生等等中, 都被廣泛使用了。 那麼,這三個版本的JDK,都有哪些新特性呢? 現在,右轉哥就來帶你剖析這三個版本的JDK的新特性: [toc] 首先是 ...
  • xml配置 1.xml基本結構: 其中id是bean字元串,bean的唯一標識符,相當於對象名,class是bean類名的完全限定路徑 2.別名 起別名有兩種方式, 1.通過alias 2.通過bean中的name屬性 用bean中name更高級,可以起多個別名 IoC創建對象方式 1.通過無參構造 ...
  • 一、屬性(Property)作為類和結構的成員,是對欄位的一種封裝方式,實際上是一種特殊的方法,被稱為訪問器(Accessor),從而隱藏實現和驗證代碼,有助於提高欄位讀取和賦值的安全性和靈活性; 1.屬性訪問器包含兩種類型:用於讀取並返回值的get訪問器,用於賦值新值的set屬性訪問器;通常將欄位 ...
  • Lucene.Net Lucene.net是Lucene的.net移植版本,是一個開源的全文檢索引擎開發包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎。 Lucene.net是Apache軟體基金會贊助的開源項目,基於Apache License協議。 ...
  • 前言 如今 C 雖然發展到了 8.0 版本,引入了諸多的函數式特性,但其實在 C 未來的規劃當中,還有很多足以大規模影響現有 C 代碼結構和組成的特性,本文中將會對就重要的特性進行介紹,並用代碼示例展示這些特性。 以下特性將會在 C 9.0、10.0 或者更高版本提供。 Records Record ...
  • Introduction: 在C#6及以上版本中,加入了一項特別好用的運算符:Null條件運算符?.和?[]可以用來方便的執行判空操作,當運算符左側操作數不為null時才會進行訪問操作,否則直接返回null。這極大的簡化的判空代碼的書寫,但在使用過程中仍然需要註意一些問題,以免其帶來我們意想不到的後 ...
  • 正如上一章介紹,WPF動畫通過一組動畫類(Animation類)表示。使用少數幾個熟悉設置相關信息,如開始值、結束值以及持續時間。這顯然使得它們非常適合於XAML。不是很清晰的時:如何為特定的事件和屬性關聯動畫,以及如何在正確的時間觸發動畫。 在所有聲明式動畫中都會用到如下兩個要素: 故事板。故事板 ...
  • 在上一篇文章abp(net core)+easyui+efcore實現倉儲管理系統——入庫管理之一(三十七) 中我們創建了入庫單的實體類,並使用CodeFirst功能創建了資料庫表,接下我們來創建一些有關與入庫單有關的DTO類與查詢分頁類。 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...