1、網頁打開檢查器,到達該路徑,再刷新網頁,點擊第一個“Attractions”文件,出現headers(重要)、response、cookies等信息 2、定位元素位置方法,找唯一特征: 用滑鼠右鍵定位該元素的標簽位置,找出這類信息的唯一性屬性,最後用“標簽+屬性”的方式定位該欄位信息。如定點陣圖片 ...
1、網頁打開檢查器,到達該路徑,再刷新網頁,點擊第一個“Attractions”文件,出現headers(重要)、response、cookies等信息
2、定位元素位置方法,找唯一特征:
- 用滑鼠右鍵定位該元素的標簽位置,找出這類信息的唯一性屬性,最後用“標簽+屬性”的方式定位該欄位信息。如定點陣圖片寬為160大小的信息 imgs = soup.select( 'img [width="160"]' );區分聚合標題與正常標題:titles = soup.select( 'div.property_title > a[ target="_blank"]' )
- 或,在源碼中ctrl+F,查看該信息是否唯一
3、某一欄位下有多個信息,需要定位在其父級標簽,方便進一步篩選信息
4、進一步篩選信息:
- 獲取文本:title.get_text()
- 獲取圖片鏈接:img.get( 'src' )
- 獲取多個文本信息:list( cates.stripped_strings )
5、連續爬多頁
- urls = ['http://...{}...' .format(str(i)) for i in range(30,300,30) ]
6、反爬--延時
- import time, time.sleep(2) 延時2S
7、反爬--網頁切換瀏覽設備
- 通過模擬手機頁面獲取信息
- 複製’user_agent'信息,偽造headers。headers = {'User-Agent' : '', 'Cookie' : '' }
- 與上述步驟一致
(完)