python反爬之懶載入

来源:https://www.cnblogs.com/ilovezzh/archive/2018/11/20/9991000.html
-Advertisement-
Play Games

選取了站長之家作為目標站點 右鍵檢查看到的標簽 實際爬取下來的網頁源代碼 按照這個解析規則,一般就能正確的解析出來需要的內容了。 ...


# 在平時的爬蟲中,如果遇到沒有局部刷新,沒有字體加密,右鍵檢查也能看到清晰的數據,但是按照已經制定好的解析規則進行解析時,會返回空數據,這是為什麼呢,這時可以在網頁右鍵查看一下網頁源代碼,可以發現,在網頁上的源代碼中有些部分是正確的,有些標簽是不正確的,改了名字或者加了數字,或者不是你在網頁上檢查看到的標簽名,所以如果你按照網頁上的解析規則去解析, 是解析不到的,這時就要按照網頁源代碼的解析規則去解析了,這就是典型的網頁懶載入。
# 什麼是網頁懶載入?
# 網頁懶載入是前端為了提高網頁訪問速度,將頁面內沒有出現在可視區域內的圖片先不做載入,等到手動滑動滑鼠滾動到可視區域後再載入。這樣對於網頁載入性能上會有很大的提升,懶載入的效果就可以提升用戶體驗。
import requests
from pyquery import PyQuery as pq
headers = {
    'User-Agent':"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10",
}
url = 'http://sc.chinaz.com/tupian/fengjingtupian.html'
r = requests.get(url=url,headers = headers)
r.encoding = r.apparent_encoding
demo = r.text
soup = pq(demo)
src = soup('.box.picblock.col3 img')
for i in src:
    i = pq(i)
    i = i.attr('src2')
    print(i)
print(len(src))

  選取了站長之家作為目標站點

  右鍵檢查看到的標簽

 

實際爬取下來的網頁源代碼

 

按照這個解析規則,一般就能正確的解析出來需要的內容了。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • IFRAME是HTML標簽,作用是文檔中的文檔,或者浮動的框架(FRAME)。iframe元素會創建包含另外一個文檔的內聯框架 ajax的理念是不進行瀏覽器頁面刷新的信息獲取更新,也就是局部刷新。 那麼偽造ajax的方式即為將向服務端發送請求返回的數據返回到iframe中,再使用js從iframe中 ...
  • 向消息隊列發送數據和獲取數據的測試 ...
  • 可以利用redis的事務加上watch監聽方法,具體代碼如下! ...
  • CBV與FBV是django視圖中處理請求的兩種方式 FBV FBV也就是function base views,字面意思函數基礎視圖,使用函數的方式處理請求url分發中添加的參數為視圖處理函數名, path('login/',views.login ) 視圖中以此函數名建立處理函數 def log ...
  • String轉成JSON 這個依賴很重要,我們將圍繞 中的 這個類來談轉換 1. String轉成JSON 一句話就能解決,非常便捷。 想要取出值,可以對 進行操作: 結果為: 2. 將String轉為list後轉為JSON 3. 將String轉為map後轉為JSON 特別註意:從JSONObje ...
  • 1、關於如何使用postman工具,簡單的介紹一下, 用戶在開發或者調試網路程式或者是網頁B/S模式的程式的時候是需要一些方法來跟蹤網頁請求的,用戶可以使用一些網路的監視工具比如著名的Firebug等網頁調試工具。今天給大家介紹的這款網頁調試工具不僅可以調試簡單的css、html、腳本等簡單的網頁基 ...
  • def stu( **kwargs): # 在函數體內對於kwargs的使用不用帶星號 print("大家好,我為大家簡單自我介紹以下:") print(type(kwargs)) # 對於字典的訪問,python2和python3 有區別 # 對於字典的訪問kwargs.items(),中間是點鏈 ...
  • 1、Java類,對象,方法,和實例變數的概念 對象:對象是類的一個實例,有狀態和行為。例如,一條狗是一個對象,它的狀態有:顏色,名字,品種;行為有:搖尾巴,叫,吃等。 類:類是一個模板,它描述一類對象的行為和狀態。 方法:方法就是行為,一個類可以有很多方法。 實例變數:每個對象都有獨特的實例變數,對 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...