Python實現自定義請求頭消息headers

-Advertisement-

使用python爬蟲爬取數據的時候，經常會遇到一些網站的反爬蟲措施，一般就是針對於headers中的User-Agent，如果沒有對headers進行設置，User-Agent會聲明自己是python腳本,而如果網站有反爬蟲的想法的話，必然會拒絕這樣的連接。而修改headers可以將自己的爬蟲腳本 ...

使用python爬蟲爬取數據的時候，經常會遇到一些網站的反爬蟲措施，一般就是針對於headers中的User-Agent，如果沒有對headers進行設置，User-Agent會聲明自己是python腳本,而如果網站有反爬蟲的想法的話，必然會拒絕這樣的連接。

而修改headers可以將自己的爬蟲腳本偽裝成瀏覽器的正常訪問，來避免這一問題。

一、使用urllib請求頁面時

import urllib, urllib2
def get_page_source(url):
    headers = {'Accept': '*/*',
               'Accept-Language': 'en-US,en;q=0.8',
               'Cache-Control': 'max-age=0',
               'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
               'Connection': 'keep-alive',
               'Referer': 'http://www.baidu.com/'
               }
    req = urllib2.Request(url, None, headers)
    response = urllib2.urlopen(req)
    page_source = response.read()
    return page_source

二、使用webdriver phantomjs請求頁面

#自定義請求頭head
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

#設置自定義請求頭參數
def get_headers_driver():
    desire = DesiredCapabilities.PHANTOMJS.copy()
    headers = {'Accept': '*/*',
               'Accept-Language': 'en-US,en;q=0.8',
               'Cache-Control': 'max-age=0',
               'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
               'Connection': 'keep-alive',
               'Referer': 'http://www.baidu.com/'
               }
    for key, value in headers.items():
        desire['phantomjs.page.customHeaders.{}'.format(key)] = value
    driver = webdriver.PhantomJS(desired_capabilities=desire, service_args=['--load-images=yes'])#將yes改成no可以讓瀏覽器不載入圖片
    return driver

# 登錄
def login():
    driver = get_headers_driver(cookie)
    url = "http://******/login/main.do"
    driver.get(url)
    #獲取網頁源碼
    print(driver.page_source)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

QTreeView自繪實現酷炫樣式

> 本篇文章結合筆者的經歷，介紹一種通過**重寫QTreeView繪製事件**，使用**QPainter**來實現好看的列表的方式。 ## 導語 Hi🐇，各位讀者朋友，大家好。相信大家在日常的工作中，經常會接觸到**QTreeView**這個控制項吧！ **QTreeView**，顧名思義，就是一種 ...
mybatis-plus+nacos配置中心和服務發現保姆級教程

預設你已經看了我的Mybatis-Plus+Mysql的教程，現在有了一個簡單的項目如下(之前的教程: https://www.cnblogs.com/leafstar/p/17638741.html) 1.下載nacao，我這裡下的是2.1.0版本提供一下我用的版本( 鏈接：https://pa ...
SpringBoot+Mybatis-Plus+Mysql的保姆級搭建

本文通過簡單的示例代碼和說明,讓讀者能夠瞭解Mybatis-Plus+Mysql的簡單使用必須說明的是，本文有部分內容是為了後續的微服務寫的，所以如果只想用Mybatis-Plus的話，直接使用bank1項目即可 1.新建父項目，選用spring initializr即可，可以刪除其他文件，僅僅留 ...
【技術積累】Java 8 新特性

![](https://cdn.nlark.com/yuque/0/2023/jpeg/28753938/1691067189459-f51a48da-0da6-4e6e-aeee-75b39662cd20.jpeg) ## 一、Lambda表達式 > Lambda 是一個匿名函數，我們可以把 La ...
票據系統（補充）

關於票據系統設計在之前的博客中也聊過，今天做一個補充 1、架構票據系統主要就是和票交所進行交互，圍繞這一核心，我們把系統劃分為三大部分，分別是：票據網關服務、票據業務服務、票據庫存服務。網關服務：對接票交所，負責和票交所的交互，主要是收發報文。業務服務：負責票據業務的處理，比如出票、背書、貼現 ...
【狂神說Java】Java零基礎學習筆記-JavaSE總結

# 【狂神說Java】Java零基礎學習筆記-JavaSE總結 ## JavaSE總結： ![image](https://img2023.cnblogs.com/blog/3231511/202308/3231511-20230817171925456-1307925972.jpg) ## 🎉� ...
【狂神說Java】Java零基礎學習筆記-異常

# 【狂神說Java】Java零基礎學習筆記-異常 ## 異常01：Error和Exception ### 什麼是異常 - 實際工作中，遇到的情況不可能是非常完美的。比如:你寫的某個模塊，用戶輸入不一定符合你的要求、你的程式要打開某個文件，這個文件可能不存在或者文件格式不對，你要讀取資料庫的數據，數 ...
阿裡EasyExcel快速導出demo

### 1. json.load(json_data)與json.dump(python_data) json.load()用來將讀取json文件，json.dump()用來將數據寫入json文件 ### 2. json.loads()與json.dumps() - json.dumps 將 Pyt ...