XPath匹配標簽使用text()判斷獲取結果失敗/為空的問題及解決方法

来源:https://www.cnblogs.com/WattWang/archive/2019/09/27/11595440.html
-Advertisement-
Play Games

XPath匹配標簽使用text()判斷獲取結果失敗/為空的問題及解決方法 ...


XPath當匹配標簽判斷text()判斷內容失敗的問題及解決

問題復現

在爬取網站的時候我使用XPath去抓取網頁上的內容,XPath表達式來精準獲取需要的標簽內容。

當我對如下一段html代碼編寫XPath表達式抓取的時候出現了問題,代碼如下。片名兩個字中間有七個空格,我想要獲取<dd></dd>中的內容。

<dl class="clearfloat margin-30">
    <dt>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</dt>
    <dd>愛貓之城</dd>
</dl>

我很自然地使用瞭如下的表達式。

FilmName = html.xpath('//dt[text()="色&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;彩"]/following-sibling::dd/text()')
FilmName = html.xpath('//dt[text()="色       彩"]/following-sibling::dd/text()')

但是竟然沒有獲取到。於是把轉義字元換成7個空格也是沒有用。

解決思路

我使用另一種辦法把<dt></dt>中的內容用text()抓取出來。

FilmName = html.xpath('/html/body/section[3]/div/ul/li/div[2]/ul[2]/dl[1]/dt/text()')

得到內容為:

'色\xa0\xa0\xa0\xa0\xa0\xa0\xa0彩'

這個是才意識到,在XPath中匹配的是unicode編碼的不間斷空格符(&nbsp;),所以將上面的空格全部替換為’\xa0‘即可。

FilmName = html.xpath('//dt[text()="色\xa0\xa0\xa0\xa0\xa0\xa0\xa0彩"]/following-sibling::dd/text()')

問題解決。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 各種都可以參照: 鏈接:https://wenku.baidu.com/view/778f794bfe4733687e21aa90.html 怎樣把SQL Server里的某個表的數據導出成XML文件,要用SQL語言,而且要自動實現,怎麼做?最佳答案 select * from 表名 for xml ...
  • 產生背景及定義 HDFS:分散式文件系統,用於存儲文件,主要特點在於其分散式,即有很多伺服器聯合起來實現其功能,集群中的伺服器各有各的角色 隨著數據量越來越大,一個操作系統存不下所有的數據,那麼就分配到更多的操作系統管理的磁碟中,但是管理和維護極不方便,於是迫切 需要一種系統來管理多台機器上的文件 ...
  • LEN() 函數 LEN 函數返迴文本欄位中值的長度。 SQL LEN() 語法 SQL LEN() 實例 我們擁有下麵這個 "Persons" 表: IdLastNameFirstNameAddressCity 1 Adams John Oxford Street London 2 Bush Ge ...
  • 最近接到需求,要修改網站內的搜索規則,就去看了下Solr的資料。現在做完需求了,回來做一些筆記,方便以後查找。 一、安裝 1.1 配置JDK JDK下載地址為:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-download ...
  • 事出有因 Redis是一個分散式NoSQL資料庫,因其數據都存儲在記憶體中,所以訪問速度極快,因此幾乎所有公司都拿它做緩存使用,所以Redis常被稱為分散式緩存。一次我的一個同事讓我幫他看Redis相關的問題,我看到了他使用了Hash數據類型,其實它就對應Java里的Map。同事要往裡存十幾個key/ ...
  • StatefulWidget 需要藉助於 State 對象,在特定的階段來處理用戶的交互或其內部數據的變化,並體現在 UI 上。這個特定的階段,就涵蓋來一個組件從載入到卸載的全過程,即生命周期。Flutter 中的 Widget 也存在生命周期,並且通過 State 來體現。 而 App 則是一個特 ...
  • InheritedWidget是Flutter中非常重要的一個功能型組件,它提供了一種數據在widget樹中從上到下傳遞、共用的方式,比如我們在應用的根widget中通過InheritedWidget共用了一個數據,那麼我們便可以在任意子widget中來獲取該共用的數據。 ...
  • 垃圾分類小助手-生活的好幫手的技術支持,如果您使用中出現什麼問題或者對我們產品有什麼改進建議,請隨時與我聯繫。 電話:15990075212 郵箱:[email protected] 應用簡介 垃圾分類小助手-生活的好幫手能夠快速搜索垃圾分類,高效率識別垃圾分類,輕鬆解決垃圾分類難題 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...