python爬蟲--爬蟲與反爬

-Advertisement-

爬蟲與反爬爬蟲：自動獲取網站數據的程式，關鍵是批量的獲取。反爬蟲：使用技術手段防止爬蟲程式的方法誤傷：反爬技術將普通用戶識別為爬蟲，從而限制其訪問，如果誤傷過高，反爬效果再好也不能使用（例如封ip，只會限制ip在某段時間內不能訪問）成本：反爬蟲需要的人力和機器成本攔截：成功攔截爬蟲，一般攔 ...

爬蟲與反爬

爬蟲：自動獲取網站數據的程式，關鍵是批量的獲取。

反爬蟲：使用技術手段防止爬蟲程式的方法

誤傷：反爬技術將普通用戶識別為爬蟲，從而限制其訪問，如果誤傷過高，反爬效果再好也不能使用（例如封ip，只會限制ip在某段時間內不能訪問）

成本：反爬蟲需要的人力和機器成本

攔截：成功攔截爬蟲，一般攔截率越高，誤傷率越高

反爬蟲1

爬蟲：對網站的數據感興趣，著手分析網路請求，用Scrapy寫爬蟲爬取網站數據
網站：後臺監控發現請求中的User-Agent都是python，直接限制訪問（不能封ip）

反爬蟲2

爬蟲：通過在請求頭中傳遞User-Agent參數模擬瀏覽器請求,可以用UA池
網站：後臺監控發現同一ip在某時間段內請求過於頻繁，直接限制訪問（不能封ip）

反爬蟲3

爬蟲：在原來的基礎上，再通過ip代理向網站發起請求,可以用代理池
網站：後臺監控發現ip發生變化，但某一時間段內的請求量過大，對伺服器造成過大壓力，網站中某些數據直接要求登錄才能訪問

反爬蟲4

爬蟲：註冊賬號，每次請求攜帶cookie或者token值
網站：健全賬號體系，用戶只能訪問好友信息，非好友信息不能訪問，或只能訪問部分信息

反爬蟲5

爬蟲：註冊多個賬號，多個賬號聯合爬取，設置程式，每個賬號每天固定添加好友，但是養號是個相對耗時的過程
網站：後臺監控發現請求過於頻繁，為避免伺服器壓力過大，進一步加劇ip訪問頻率限制

反爬蟲6

爬蟲：模擬人去請求，限制請求速度,讓代碼睡幾秒
網站：後臺監控到ip訪問時間段過長，例如一天24小時都在有規律地請求，彈出驗證碼

反爬蟲7

爬蟲：通過各種手段識別驗證碼（建議使用打碼平臺,充錢，自己去研究識別驗證碼太費時，時效性也太差）
網站：增加動態網站，數據通過js動態載入，增加網路分析複雜度，或者發現大量請求時只請求html，而不請求image和css以及js，亦或者直接返回假數據給爬蟲

反爬蟲8

爬蟲:通過正常請求去爬取數據,但有些數據看不到,數據是動態載入的,考慮發了ajax請求
網站:不在前端正常顯示

反爬蟲9

爬蟲:通過一些反爬手段去爬取數據,但得到的不是正常的數據,網站應該是做了某種手段的加密
網站:把內容進行加密

反爬蟲10

爬蟲：通過selenium和phantomjs（無界面瀏覽器）完全模擬瀏覽器操作,例如滑動驗證等
網站：......

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

微信公眾平臺後臺配置自定義菜單

微信公眾平臺後臺配置自定義菜單一、首先進入微信公眾平臺，訪問地址 https://mp.weixin.qq.com/ 二、用註冊的微信公眾號的賬號和密碼登錄，左側的功能選項中進入自定義菜單頁面三、在自定義菜單頁面點擊紅框的 + 號就可以增加新的菜單四、對新加的菜單可以根據自己的需要進行設 ...
PHP+jQuery中國地圖熱點數據統計展示實例

一款PHP+jQuery實現的中國地圖熱點數據統計展示實例，當滑鼠滑動到地圖指定省份區域，在彈出的提示框中顯示對應省份的數據信息。 ...
大部分人都會忽略的Python易錯點總結

python中複數實現( 2) 0.5和開根號sqrt( 2)的區別 ( 2) 0.5和sqrt( 2)是不同的，前者是複數後者是會報錯的。 Python用迴圈構造的函數數組，運行這個數組裡面的函數後返回值都一樣上面程式的輸出是：為什麼明明f(x)返回的是x+i，而i是從0到4變化的。按道理執行 ...
對python函數後面有多個括弧的理解？

一般而言，函數後面只有一個括弧。如果看見括弧後還有一個括弧，說明第一個函數返回了一個函數，如果後面還有括弧，說明前面那個也返回了一個函數。以此類推。比如fun()() PS：遇到問題沒人解答？需要Python學習資料？可以加點擊下方鏈接自行獲取 note.youdao.com/noteshare? ...
爬蟲(八)：文件處理

1. json文件處理 1.1 什麼是json JSON(JavaScript Object Notation，JS對象簡譜)是一種輕量級的數據交換格式。它基於ECMAScript(歐洲電腦協會制定的js規範)的一個子集，採用完全獨立於編程語言的文本格式來存儲和表示數據。簡潔和清晰的層次結構使得J ...
8道Python基礎面試練習題

1.26個字母大小寫成對列印，例如：Aa，Bb...... 2.一個list包含10個數字，然後生成一個新的list，要求新的list裡面的數都比之前的數多1 3.倒序取出每個單詞的第一個字母，例如：I am a good boy！方法1 方法2 4.輸入一個自己的生日月份，用if和else判斷一 ...
SpringMVC架構模擬

這次來學習一下SpringMVC的源碼. 對於常見的項目架構模式,比如大名鼎鼎的SSM(SpringMVC,Spring,Mybatis)框架. SpringMVC ->web層(Controller層) Spring ->service層 mybatis ->dao層從SpringMVC層面上講 ...
使用python的一些筆記

語法傳值與傳引用 Python參數傳遞採用的是“傳對象引用”的方式。這種方式相當於傳值和傳引用的一種綜合。如果函數收到的是一個可變對象（比如字典或者列表）的引用，就能修改對象的原始值－－相當於通過“傳引用”來傳遞對象。如果函數收到的是一個不可變對象（比如數字、字元或者元組）的引用，就不能直接修 ...