網頁解析_20180523_ZenDei技術網路在線

網頁解析_20180523

-Advertisement-

1、網頁打開檢查器，到達該路徑，再刷新網頁，點擊第一個“Attractions”文件，出現headers（重要）、response、cookies等信息 2、定位元素位置方法，找唯一特征：用滑鼠右鍵定位該元素的標簽位置，找出這類信息的唯一性屬性，最後用“標簽+屬性”的方式定位該欄位信息。如定點陣圖片 ...

1、網頁打開檢查器，到達該路徑，再刷新網頁，點擊第一個“Attractions”文件，出現headers（重要）、response、cookies等信息

2、定位元素位置方法，找唯一特征：

用滑鼠右鍵定位該元素的標簽位置，找出這類信息的唯一性屬性，最後用“標簽+屬性”的方式定位該欄位信息。如定點陣圖片寬為160大小的信息 imgs = soup.select( 'img [width="160"]' )；區分聚合標題與正常標題：titles = soup.select( 'div.property_title > a[ target="_blank"]' )
或，在源碼中ctrl+F，查看該信息是否唯一

3、某一欄位下有多個信息，需要定位在其父級標簽，方便進一步篩選信息

4、進一步篩選信息：

獲取文本：title.get_text()
獲取圖片鏈接：img.get( 'src' )
獲取多個文本信息：list( cates.stripped_strings )

5、連續爬多頁

urls = ['http://...{}...' .format(str(i)) for i in range(30,300,30) ]

6、反爬--延時

import time, time.sleep(2) 延時2S

7、反爬--網頁切換瀏覽設備

通過模擬手機頁面獲取信息
複製’user_agent'信息，偽造headers。headers = {'User-Agent' : '', 'Cookie' : '' }
與上述步驟一致

（完）

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

CSS與JS中的相對路徑引用簡單介紹

javascript和css文件中採用相對路徑，其基準路徑是完全不同的。 1.javascript引用資源(比如圖片)相對路徑是以宿主路徑(被引用的網頁比如你在首頁index.php引用了某js文件，則index.php即為宿主)所處位置為基準。 2.css引用資源(比如圖片)相對路徑是以.css文 ...
圖形剖析，當給 ul 設置padding=0， margin=0後 li前面的小黑點消失的現象原理！

...
React從入門到放棄之前奏(3)：Redux簡介

安裝概念在redux中分為3個對象：Action、Reducer、Store Action 1. 對行為（如用戶行為）的抽象 1. Action 就是一個普通 JavaScript 對象。如： (其中type欄位是約定也是必須的) 1. 作為Reducer的參數 Reducer 1. 一個普通的 ...
jquery獲取select多選框選中的值

select下拉框選中的值，用jquery大家應該都會獲取，如果select是多選的，也這麼獲取的話，則只能獲取到第一個選項的value值，但是有一個神奇的發現，如果是：獲取text，則可以直接列印出選中的兩個選項的文本值的相連字元串，而不是只是第一個的text......... 獲取多選框的v ...
Vue.js 相關知識（腳手架）

1. vue-cli 簡介 Vue-cli 是 vue的設計者，為提升開發效率而提供的一個腳手架工具，可通過vue-cli快速構造項目結構 2. vue-cli 安裝步驟安裝npm 或 cnpm 安裝webpack、webpack-cli 建議全局安裝一次：建議全局安裝一次：本地安裝一次：本 ...
設計模式---策略模式

下午學習了設計模式里的策略模式，寫個筆記，做個總結策略模式的UML圖為：舉個例子：我們每個人都想走向人生巔峰，但是怎麼走向人生巔峰呢？？有三個方法：1、當總經理；2、出任CEO；3、娶白富美。正好我身邊有三個小伙伴，他們就想通過這三種策略來走向人生巔峰。。。首先是走向人生巔峰的策略介面然後 ...
Django運算表達式與Q對象/F對象

Django運算表達式與Q對象/F對象 1 模型查詢概述: 1 查詢集:表示從資料庫中獲取的對象的集合 2 查詢集可以有多個過濾器,通過邏輯運算符連接 3 過濾器就是一個函數,基於所給的參數限制查詢的結果,類似MySQL模糊查詢中where語句 4 查詢集等同select語句 2 查詢集特點: ...
我和Python的Py交易》》》》》》數據類型

Python里的變數門牌 Python在使用變數之前無須定義它的類型，但是必須聲明以及初始化該變數。 Python中給變數賦值就是聲明，初始化變數(也就是創建一個相應數據類型的對象，而那些數據類型就是類)，變數的類型是取決於其儲存的數據。（下麵代碼中的a變數，其類型類型隨著賦值的類型不同而改變） ...