python:如何對付無理取鬧不給數據的瀏覽器,讓它乖乖把數據交出來~

来源:https://www.cnblogs.com/Qqun261823976/archive/2022/07/01/16428838.html
-Advertisement-
Play Games

前言 有時候我們些代碼是總發此疑惑? 為什麼別人採集 xx 網站的時候能成功,而我卻總是不返回給數據 出現這種原因時往往是我們沒有給夠偽裝, 被識別了出來~ 就像人,你出門肯定是要穿衣服的對不,如果你不穿! 走在外面,肯定是最顯眼的一個,不抓你抓誰 還有一種就是明明我之前運行成功了,為什麼我現在再次 ...


前言

有時候我們些代碼是總發此疑惑?

為什麼別人採集 xx 網站的時候能成功,而我卻總是不返回給數據

 

 

出現這種原因時往往是我們沒有給夠偽裝, 被識別了出來~

就像人,你出門肯定是要穿衣服的對不,如果你不穿!

走在外面,肯定是最顯眼的一個,不抓你抓誰

還有一種就是明明我之前運行成功了,為什麼我現在再次運行時就不行了呢~

而且還甩一句話給我 “系統檢測到您頻繁訪問,請稍後再來”

 

 

對於這種情況,我也有一個比喻:

小說里往往會有這樣的霸總,能一夜七次或一次七天,咳咳

總而言之就是對方受不了,發現你不是它的良人,並把你加入了黑名單~

 

 

好啦!現在咋們正經的來介紹一下麵對此種情況該如何處理~

要會偽裝,要想想看,人是怎麼訪問網站的

這次我們來說說偽裝 Header ,當你要去爬取某個網站的數據的時候

你要想想看,如果是別人爬取你的數據,你會做什麼操作

你是不是也不想,讓別人隨隨便便就瘋狂請求你的伺服器

你是不是也會,採取一定的措施

 

 

比如,我有一個網站,你分析到了我的地址

當你想要通過 python 來爬取的時候...

這邊我來寫一個簡單的可以被請求的例子

from flask import Flask

app = Flask(__name__)


@app.route('/getInfo')
def hello_world():
    return "這裡假裝有很多數據"


if __name__ == "__main__":
    app.run(debug=True)

 

ok ,假設你現在分析到了我的地址了,

也就是可以通過 /getInfo 就可以獲取到小帥b網站上的數據了

你感覺很爽,就開始請求了

 

 


 url = 'http://127.0.0.1:5000/getInfo'
    response = requests.get(url)
    print(response.text)

 

沒錯,這個時候你確實獲取到數據了

但是!我覺得有點不對勁了,想看看請求的 header 信息

@app.route('/getInfo')
def hello_world():
    print(request.headers)
    return "這裡假裝有很多數據"


if __name__ == "__main__":
    app.run(debug=True)

 

結果看到的 headers 信息是這樣的

Host: 127.0.0.1:5000
User-Agent: python-requests/2.21.0
Accept-Encoding: gzip, deflate
Accept: */*
Connection: keep-alive

 

哇靠


 

 

User-Agent: python-requests/2.21.0

 

居然使用 python 的庫來請求,你說我不封你封誰呢?

所以我這個時候進行判斷,就獲取不到數據了

@app.route('/getInfo')
def hello_world():
    if(str(request.headers.get('User-Agent')).startswith('python')):
        return "小子,使用爬蟲是吧?滾你的"
    else:
        return "這裡假裝有很多數據"


if __name__ == "__main__":
    app.run(debug=True)

 

你這個時候的請求

if __name__ == '__main__':
    url = 'http://127.0.0.1:5000/getInfo'
    response = requests.get(url)
    print(response.text)

 

得到的結果就是

“系統檢測到您頻繁訪問,請稍後再來”

你已經在我面前暴露了,想重新再來,那麼怎麼辦呢?

偽裝自己唄,python 不可以訪問

瀏覽器可以訪問呀,所以你可以修改你的請求頭

先在瀏覽器訪問,然後在抓取數據的時候獲取到 Header 數據

 

 

當然你也可以使用 Chrome 的控制面板獲取 Header

 

 

有了 Header 信息之後,就可以使用 requests模塊輕鬆獲取

恩,現在的你學會假裝自己是瀏覽器了

if __name__ == '__main__':

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }

    url = 'http://127.0.0.1:5000/getInfo'
    response = requests.get(url,headers=headers)
    print(response.text)

 

再獲取一次可以發現,返回的是

這裡假裝有很多數據

ok,你又獲取到數據了

好啦,這篇文章就到這裡啦~對你有幫助就點贊收藏一下吧!

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 效果展示 思路分析 層級思路 從展示的效果可以猜到這個效果由3層文字組成。 錶面一層黑色文字 中間一層白色文字 最低的一層是斑馬條紋文字 要實現多層文字,我首先想到的是文字投影 text-shadow ,但通常 text-shadow 只能投個純色出來。 於是思路要改一下,黑色和白色層是投影,斑馬條 ...
  • bootstrap-select,selectpicker 用法詳細:通過官方文檔翻譯 用過selectpicker的都說好~但是網上中文的教程又找不到比較完整的用法,於是去官網看了下 順便弄過來翻譯一下: 選項可以通過數據屬性或JavaScript傳遞。對於數據屬性,附加選項名稱data-,如 d ...
  • Fundebug 前端異常監控服務 Fundebug提供專業的前端異常監控服務,我們的插件可以提供全方位的異常監控,可以幫助開發者第一時間定位各種前端異常,包括但不限於 JavaScript 執行錯誤以及 HTTP 請求錯誤。 並且,Fundebug 支持 Source Map 還原,記錄用戶行為以 ...
  • 前段時間研究了下基於`Prometheus`構建監控系統相關的概念,並以此為基準設計了一個企業級通用的監控告警平臺的方案。這裡分享一下架構的分析過程以及問題的解決思路。 ...
  • 本篇文章中,將描述如何使用go創建CA,並使用CA簽署證書。在使用openssl創建證書時,遵循的步驟是 創建秘鑰 > 創建CA > 生成要頒發證書的秘鑰 > 使用CA簽發證書。這種步驟,那麼我們現在就來嘗試下。 創建證書的頒發機構 首先,會從將從創建 CA 開始。CA 會被用來簽署其他證書 // ...
  • 本篇代碼提供者: 青燈教育-自游老師 [環境使用]: Python 3.8 Pycharm [模塊使用]: requests >>> pip install requests re json csv 如果安裝python第三方模塊: win + R 輸入 cmd 點擊確定, 輸入安裝命令 pip i ...
  • Java基礎之 數據類型 註釋、標識符、關鍵字 數據類型 類型轉換 變數、常量 運算符 包機制、JavaDoc 數據類型 強類型語言 要求變數的使用要嚴格符合會定,所有變數都必須先定義後才能使用 弱類型語言 變數的使用沒有那麼嚴格 什麼是位元組 位(bit):是電腦 內部數據 儲存的最小單位,110 ...
  • 今天看到一篇博客介紹使用 Lambda 表達式遞歸計算 n!。使用了 C++14 的 generic lambda,給 Lambda 表達式加了一個模板參數,在函數調用的時候將 Lambda 表達式作為參數傳遞給下一層函數。這種方法每次調用函數的時候都要比常規的函數多傳一個參數。我想起兩年前也用 L ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...