使用HtmlAgilityPack開發爬蟲篩選HTML時，關於xpath的坑

-Advertisement-

其實這個坑呢，說實話是非常的有意思，因為當時這個坑弄得我甚至是以為編譯器壞了。昨天我在寫關於豆瓣的爬蟲的時候，有這樣一個需求：我想抓這個a標簽，拿他的鏈接地址。這個時候在瀏覽器里右鍵該標簽，複製其xpath結果如下： //*[@id="content"]/div/div[1]/div[2]/ta ...

其實這個坑呢，說實話是非常的有意思，因為當時這個坑弄得我甚至是以為編譯器壞了。

昨天我在寫關於豆瓣的爬蟲的時候，有這樣一個需求：

我想抓這個a標簽，拿他的鏈接地址。這個時候在瀏覽器里右鍵該標簽，複製其xpath結果如下：

//*[@id="content"]/div/div[1]/div[2]/table/tbody/tr[2]/td[1]/a

然後在代碼中，則按照這個xpath路徑去找，發現根本就沒用，什麼都找不到。

然後後面在調試的時候，我故意在即時視窗里，這樣子去試驗這條xpath路徑：

我先檢測 //*[@id="content"] 這樣能不能找到內容，然後發現可以；

然後檢測 //*[@id="content"]/div 發現也可以；

一直到 //*[@id="content"]/div/div[1]/div[2]/table/tbody 這個的時候，發現返回 null ，找不到？

最後我嘗試把 tbody 去掉，直接用 //*[@id="content"]/div/div[1]/div[2]/table/tr[2]/td[1]/a （把tbody刪了）

發現終於得到了我想要的那個標簽節點。

總結

其實這個坑就是說，xpath裡面不能帶 tbody ，碰到這個節點，直接跳過，進行到下一節點去

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

論JDK5/7/8版本都做出了哪些革新

在Java發展的里程碑上，有三個版本做出的改動，是革命性的為什麼說是革命性的呢？因為這三個版本所推出的有些新機制，在之後的Java框架開發、新類的產生等等中，都被廣泛使用了。那麼，這三個版本的JDK，都有哪些新特性呢？現在，右轉哥就來帶你剖析這三個版本的JDK的新特性： [toc] 首先是 ...
Spring個人筆記

xml配置 1.xml基本結構：其中id是bean字元串，bean的唯一標識符，相當於對象名，class是bean類名的完全限定路徑 2.別名起別名有兩種方式， 1.通過alias 2.通過bean中的name屬性用bean中name更高級，可以起多個別名 IoC創建對象方式 1.通過無參構造 ...
C#面向對象--屬性

一、屬性（Property）作為類和結構的成員，是對欄位的一種封裝方式，實際上是一種特殊的方法，被稱為訪問器（Accessor），從而隱藏實現和驗證代碼，有助於提高欄位讀取和賦值的安全性和靈活性； 1.屬性訪問器包含兩種類型：用於讀取並返回值的get訪問器，用於賦值新值的set屬性訪問器；通常將欄位 ...
使用Lucene.Net做一個簡單的搜索引擎-全文索引

Lucene.Net Lucene.net是Lucene的.net移植版本，是一個開源的全文檢索引擎開發包，即它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎。 Lucene.net是Apache軟體基金會贊助的開源項目，基於Apache License協議。 ...
從未來看 C#

前言如今 C 雖然發展到了 8.0 版本，引入了諸多的函數式特性，但其實在 C 未來的規劃當中，還有很多足以大規模影響現有 C 代碼結構和組成的特性，本文中將會對就重要的特性進行介紹，並用代碼示例展示這些特性。以下特性將會在 C 9.0、10.0 或者更高版本提供。 Records Record ...
使用C#的null條件運算符?.的註意事項

Introduction：在C#6及以上版本中，加入了一項特別好用的運算符：Null條件運算符?.和?[]可以用來方便的執行判空操作，當運算符左側操作數不為null時才會進行訪問操作，否則直接返回null。這極大的簡化的判空代碼的書寫，但在使用過程中仍然需要註意一些問題，以免其帶來我們意想不到的後 ...
【WPF學習】第五十章故事板

正如上一章介紹，WPF動畫通過一組動畫類(Animation類)表示。使用少數幾個熟悉設置相關信息，如開始值、結束值以及持續時間。這顯然使得它們非常適合於XAML。不是很清晰的時：如何為特定的事件和屬性關聯動畫，以及如何在正確的時間觸發動畫。在所有聲明式動畫中都會用到如下兩個要素：故事板。故事板 ...
bp(net core)+easyui+efcore實現倉儲管理系統——入庫管理之二(三十八)

在上一篇文章abp(net core)+easyui+efcore實現倉儲管理系統——入庫管理之一(三十七) 中我們創建了入庫單的實體類，並使用CodeFirst功能創建了資料庫表，接下我們來創建一些有關與入庫單有關的DTO類與查詢分頁類。 ...