爬蟲 - xpath 匹配_ZenDei技術網路在線

爬蟲 - xpath 匹配

-Advertisement-

例題import lxml.html test_data = """ <div> <ul> <li class="item-0"><a href="link1.html" id="places_neighbours__row">9,596,960first item</a></li> <li cla ...

例題


import lxml.html

test_data = """
        <div>
            <ul>
                 <li class="item-0"><a href="link1.html" id="places_neighbours__row">9,596,960first item</a></li>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html" id="places_neighbours__row">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a></li>
                 <li class="good-0"><a href="link5.html">fifth item</a></li>
             </ul>
             <book>
                    <title lang="aaengbb">111111</title>
                    <price id="places_neighbours__row">29.99</price>
            </book>
            <book>
                <title lang="zh">222222</title>
                <price>39.95</price>
            </book>
            <book>
                <title>33333</title>
                <price>40</price>
            </book>
         </div>
        <a>
            <book>
                <title>123</title>
            </book>

        </a>
        
        """

"""
/ 從根標簽開始 必須具有嚴格的父子關係
// 從當前標簽  後續節點含有即可選出
* 通配符，選擇所有
//div/book[1]/title 選擇div下第一個book標簽的title元素
//div/book/title[@lang="zh"]選擇title屬性含有lang且內容是zh的title元素
//div/book/title //book/title //title //div//title 具有相同的結果，因為使用相對路徑最終都指向title
//book/title/@* 將title所有的屬性值選擇出來
//book/title/text() 將title的內容選擇出來，使用內置text()函數
//a[@href="link1.html" and @id="places_neighbours__row"] 
//a[@href="link1.html" or @id="places_neighbours__row"]
//div/book[last()]/title/text() 將最後一個book元素選出
//div/book[price > 39]/title 將book子標簽price數值大於39的選擇出來
//li[starts-with(@class,'item')] 將class屬性首碼是item的li標簽選出
//title[contains(@lang,'eng')] 將title屬性lang含有eng關鍵字的標簽選出
"""


html = lxml.html.fromstring(test_data)

#html_data = html.xpath('//div/book/title/text()')
#html_data = html.xpath('//div/book[1]/title/text()')
#html_data = html.xpath('//div/book/title[@lang="zh"]/text()')
#html_data = html.xpath('//div/book/title/text()')
# html_data = html.xpath('//book/title/text()')
# html_data = html.xpath('//title/text()')
# html_data = html.xpath('//div//title/text()')
# html_data = html.xpath('//book/title/@*')

# html_data = html.xpath('//a[@href="link1.html" and @id="places_neighbours__row"]/text()')
#html_data = html.xpath('//a[@href="link2.html"]/text()')
# html_data = html.xpath('//div/ul/li/a[@id]/text()')
# html_data = html.xpath('//a[@href="link1.html" and @id="places_neighbours__row"]/@*')
# html_data = html.xpath('//a[@href="link1.html" and @id="places_neighbours__row"]/@href')
# html_data = html.xpath('//a[@href="link1.html" or @id="places_neighbours__row"]/text()')
# html_data = html.xpath('//div/book[last()]/title/text()')
#html_data = html.xpath('//div/book[price > 39]/title/text()')
# html_data = html.xpath('//li[starts-with(@class,"item")]/a/text()')
html_data = html.xpath('//title[contains(@lang,"eng")]/text()')

for i in html_data:
    print(i)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

數據類型（集合）

集合特點：數據不重覆無序創建集合有兩種方法第一種： s = {1,2,3,4} 第二種： s = set(['1','2','3','4'])添加數據 l.add('5') # 添加單個數據 l.update([1,3,3,4,5,6,7]) # 可以添加多數據刪除數據 l.pop() # 隨 ...
Java開發筆記（三十九）日期工具Date

Date是Java最早的日期工具，編程中經常通過它來獲取系統的當前時間。當然使用Date也很簡單，只要一個new關鍵字就能創建日期實例，就像以下代碼示範的那樣：有了這個日期實例，再來調用getYear（獲取年份）、getMonth（獲取月份）、getDate（獲取日子）、getDay（獲取星期幾） ...
AttributeError: 'dict' object has no attribute 'has_key'

運行下麵的代碼：出錯：這是因為換成了Python3.6.5，Python3.6.5已經刪除了has_key()方法，改成了下麵的寫法：就可以正常運行了。 ...
python中基本數據結構（一）

1- 什麼是棧？一個棧是一個項的有序集合。添加項和移除項都在同一端，這一端被稱為‘棧頂’。另一端被稱為‘棧底’。棧使用的是後進先出原則即‘LIFO’原則，也就是說最新添加的項在移除時是第一個被移除的。在日常生活中有很多例子比如說在餐廳中有一堆餐盤，我們拿走的是最頂上的一個，排在我們後面的人將拿走 ...
Python的描述符

1、描述符的定義描述符是與特定屬性互相綁定的一種協議，通過方法被觸發修改屬性，這些方法包括__get__(),__set__(),__delete__().將這些方法定義在類中，即可實現描述符 2、屬性與__dict__ Python中類有屬於自己的字典屬性，經過類的實例化的對象也同樣有自己的字典 ...
python 反射

1.反射主要是用到了4個函數( 用的最多的就是getattr()和 hasattr() ): getattr() 從xxx對象中獲取到xxx屬性值 hasattr() 判斷xxx對象中是否有xxx屬性值delattr() 從xxx對象中刪除xxx屬性setattr() 設置xxx對象中的xxx屬性 ...
插值（scipy.interpolate）

https://docs.scipy.org/doc/scipy/reference/interpolate.html#module-scipy.interpolate https://stackoverflow.com/questions/31464345/fitting-a-closed-cur ...
python爬蟲+數據可視化項目（關註、持續更新）

python爬蟲+數據可視化項目（一）爬取目標：中國天氣網（起始url：http://www.weather.com.cn/textFC/hb.shtml#）爬取內容：全國實時溫度最低的十個城市氣溫排行榜使用工具：requests庫實現發送請求、獲取響應。 beautifulsoup實現數據解 ...