python:如何對付無理取鬧不給數據的瀏覽器,讓它乖乖把數據交出來~

来源:https://www.cnblogs.com/Qqun261823976/archive/2022/07/01/16428838.html
-Advertisement-
Play Games

前言 有時候我們些代碼是總發此疑惑? 為什麼別人採集 xx 網站的時候能成功,而我卻總是不返回給數據 出現這種原因時往往是我們沒有給夠偽裝, 被識別了出來~ 就像人,你出門肯定是要穿衣服的對不,如果你不穿! 走在外面,肯定是最顯眼的一個,不抓你抓誰 還有一種就是明明我之前運行成功了,為什麼我現在再次 ...


前言

有時候我們些代碼是總發此疑惑?

為什麼別人採集 xx 網站的時候能成功,而我卻總是不返回給數據

 

 

出現這種原因時往往是我們沒有給夠偽裝, 被識別了出來~

就像人,你出門肯定是要穿衣服的對不,如果你不穿!

走在外面,肯定是最顯眼的一個,不抓你抓誰

還有一種就是明明我之前運行成功了,為什麼我現在再次運行時就不行了呢~

而且還甩一句話給我 “系統檢測到您頻繁訪問,請稍後再來”

 

 

對於這種情況,我也有一個比喻:

小說里往往會有這樣的霸總,能一夜七次或一次七天,咳咳

總而言之就是對方受不了,發現你不是它的良人,並把你加入了黑名單~

 

 

好啦!現在咋們正經的來介紹一下麵對此種情況該如何處理~

要會偽裝,要想想看,人是怎麼訪問網站的

這次我們來說說偽裝 Header ,當你要去爬取某個網站的數據的時候

你要想想看,如果是別人爬取你的數據,你會做什麼操作

你是不是也不想,讓別人隨隨便便就瘋狂請求你的伺服器

你是不是也會,採取一定的措施

 

 

比如,我有一個網站,你分析到了我的地址

當你想要通過 python 來爬取的時候...

這邊我來寫一個簡單的可以被請求的例子

from flask import Flask

app = Flask(__name__)


@app.route('/getInfo')
def hello_world():
    return "這裡假裝有很多數據"


if __name__ == "__main__":
    app.run(debug=True)

 

ok ,假設你現在分析到了我的地址了,

也就是可以通過 /getInfo 就可以獲取到小帥b網站上的數據了

你感覺很爽,就開始請求了

 

 


 url = 'http://127.0.0.1:5000/getInfo'
    response = requests.get(url)
    print(response.text)

 

沒錯,這個時候你確實獲取到數據了

但是!我覺得有點不對勁了,想看看請求的 header 信息

@app.route('/getInfo')
def hello_world():
    print(request.headers)
    return "這裡假裝有很多數據"


if __name__ == "__main__":
    app.run(debug=True)

 

結果看到的 headers 信息是這樣的

Host: 127.0.0.1:5000
User-Agent: python-requests/2.21.0
Accept-Encoding: gzip, deflate
Accept: */*
Connection: keep-alive

 

哇靠


 

 

User-Agent: python-requests/2.21.0

 

居然使用 python 的庫來請求,你說我不封你封誰呢?

所以我這個時候進行判斷,就獲取不到數據了

@app.route('/getInfo')
def hello_world():
    if(str(request.headers.get('User-Agent')).startswith('python')):
        return "小子,使用爬蟲是吧?滾你的"
    else:
        return "這裡假裝有很多數據"


if __name__ == "__main__":
    app.run(debug=True)

 

你這個時候的請求

if __name__ == '__main__':
    url = 'http://127.0.0.1:5000/getInfo'
    response = requests.get(url)
    print(response.text)

 

得到的結果就是

“系統檢測到您頻繁訪問,請稍後再來”

你已經在我面前暴露了,想重新再來,那麼怎麼辦呢?

偽裝自己唄,python 不可以訪問

瀏覽器可以訪問呀,所以你可以修改你的請求頭

先在瀏覽器訪問,然後在抓取數據的時候獲取到 Header 數據

 

 

當然你也可以使用 Chrome 的控制面板獲取 Header

 

 

有了 Header 信息之後,就可以使用 requests模塊輕鬆獲取

恩,現在的你學會假裝自己是瀏覽器了

if __name__ == '__main__':

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }

    url = 'http://127.0.0.1:5000/getInfo'
    response = requests.get(url,headers=headers)
    print(response.text)

 

再獲取一次可以發現,返回的是

這裡假裝有很多數據

ok,你又獲取到數據了

好啦,這篇文章就到這裡啦~對你有幫助就點贊收藏一下吧!

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 效果展示 思路分析 層級思路 從展示的效果可以猜到這個效果由3層文字組成。 錶面一層黑色文字 中間一層白色文字 最低的一層是斑馬條紋文字 要實現多層文字,我首先想到的是文字投影 text-shadow ,但通常 text-shadow 只能投個純色出來。 於是思路要改一下,黑色和白色層是投影,斑馬條 ...
  • bootstrap-select,selectpicker 用法詳細:通過官方文檔翻譯 用過selectpicker的都說好~但是網上中文的教程又找不到比較完整的用法,於是去官網看了下 順便弄過來翻譯一下: 選項可以通過數據屬性或JavaScript傳遞。對於數據屬性,附加選項名稱data-,如 d ...
  • Fundebug 前端異常監控服務 Fundebug提供專業的前端異常監控服務,我們的插件可以提供全方位的異常監控,可以幫助開發者第一時間定位各種前端異常,包括但不限於 JavaScript 執行錯誤以及 HTTP 請求錯誤。 並且,Fundebug 支持 Source Map 還原,記錄用戶行為以 ...
  • 前段時間研究了下基於`Prometheus`構建監控系統相關的概念,並以此為基準設計了一個企業級通用的監控告警平臺的方案。這裡分享一下架構的分析過程以及問題的解決思路。 ...
  • 本篇文章中,將描述如何使用go創建CA,並使用CA簽署證書。在使用openssl創建證書時,遵循的步驟是 創建秘鑰 > 創建CA > 生成要頒發證書的秘鑰 > 使用CA簽發證書。這種步驟,那麼我們現在就來嘗試下。 創建證書的頒發機構 首先,會從將從創建 CA 開始。CA 會被用來簽署其他證書 // ...
  • 本篇代碼提供者: 青燈教育-自游老師 [環境使用]: Python 3.8 Pycharm [模塊使用]: requests >>> pip install requests re json csv 如果安裝python第三方模塊: win + R 輸入 cmd 點擊確定, 輸入安裝命令 pip i ...
  • Java基礎之 數據類型 註釋、標識符、關鍵字 數據類型 類型轉換 變數、常量 運算符 包機制、JavaDoc 數據類型 強類型語言 要求變數的使用要嚴格符合會定,所有變數都必須先定義後才能使用 弱類型語言 變數的使用沒有那麼嚴格 什麼是位元組 位(bit):是電腦 內部數據 儲存的最小單位,110 ...
  • 今天看到一篇博客介紹使用 Lambda 表達式遞歸計算 n!。使用了 C++14 的 generic lambda,給 Lambda 表達式加了一個模板參數,在函數調用的時候將 Lambda 表達式作為參數傳遞給下一層函數。這種方法每次調用函數的時候都要比常規的函數多傳一個參數。我想起兩年前也用 L ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...