【Python爬蟲實戰項目】Python爬蟲批量下載相親網站數據並保存本地（附源碼）

-Advertisement-

前言今天給大家介紹的是Python爬蟲批量下載相親網站圖片數據，在這裡給需要的小伙伴們代碼，並且給出一點小心得。首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲，基本的是加請求頭，但是這樣的純文本數據爬取的人會很多，所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對相親網站圖片數據進 ...

前言

今天給大家介紹的是Python爬蟲批量下載相親網站圖片數據，在這裡給需要的小伙伴們代碼，並且給出一點小心得。

首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲，基本的是加請求頭，但是這樣的純文本數據爬取的人會很多，所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對相親網站圖片數據進行爬取。

在每次進行爬蟲代碼的編寫之前，我們的第一步也是最重要的一步就是分析我們的網頁。

通過分析我們發現在爬取過程中速度比較慢，所以我們還可以通過禁用谷歌瀏覽器圖片、JavaScript等方式提升爬蟲爬取速度。

開發工具

Python版本： 3.6

相關模塊：

requests模塊

parsel模塊

re模塊

環境搭建

安裝Python並添加到環境變數，pip安裝需要的相關模塊即可。

文中完整代碼及文件，評論留言獲取

數據來源查詢分析

瀏覽器中打開我們要爬取的頁面
按F12進入開發者工具，查看我們想要的相親網站圖片數據在哪裡
這裡我們需要頁面數據就可以了

源代碼結構

代碼實現

for page in range(1, 11):
    # 請求鏈接
    url = f'https://love.19lou.com/valueApp/api/love/searchLoveUser?page={page}&perPage=12&sex=0'
    # 偽裝模擬
    headers = {
        # User-Agent 用戶代理, 表示瀏覽器基本信息
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
        'Cookie':'你的Cookie'
    }
    # 發送請求
    response = requests.get(url=url, headers=headers)
    print(response)

	#for迴圈遍歷, 把列表裡面元素一個一個提取出來
    for index in response.json()['data']['items']:
        #  https://love.19lou.com/detail/51593564  format 字元串格式化方法
        link = f'https://love.19lou.com/detail/{index["uid"]}'

	html_data = requests.get(url=link, headers=headers).text

	# 把獲取下來 html字元串數據<html_data>, 轉成可解析對象
        selector = parsel.Selector(html_data)
        name = selector.css('.username::text').get()
        info_list = selector.css('.info-tag::text').getall()
        # . 表示調用方法屬性
        gender = info_list[0].split('：')[-1]
        age = info_list[1].split('：')[-1]
        height = info_list[2].split('：')[-1]
        date = info_list[-1].split('：')[-1]
        # 判斷info_list元素個數  當元素個數4個 說明沒有體重一欄
        if len(info_list) == 4:
            weight = '0kg'
        else:
            weight = info_list[3].split('：')[-1]
        info_list_1 = selector.css('.basic-item span::text').getall()[2:]
        zodiac = info_list_1[0].split('：')[-1]
        constellation = info_list_1[1].split('：')[-1]
        nativePlace = info_list_1[2].split('：')[-1]
        location = info_list_1[3].split('：')[-1]
        edu = info_list_1[4].split('：')[-1]
        maritalStatus = info_list_1[5].split('：')[-1]
        job = info_list_1[6].split('：')[-1]
        money = info_list_1[7].split('：')[-1]
        house = info_list_1[8].split('：')[-1]
        car = info_list_1[9].split('：')[-1]
        img_url = selector.css('.page .left-detail .abstract .avatar img::attr(src)').get()
        # 把獲取下來的數據 保存字典裡面  字典數據容器
        dit = {
            '昵稱': name,
            '性別': gender,
            '年齡': age,
            '身高': height,
            '體重': weight,
            '出生日期': date,
            '生肖': zodiac,
            '星座': constellation,
            '籍貫': nativePlace,
            '所在地': location,
            '學歷': edu,
            '婚姻狀況': maritalStatus,
            '職業': job,
            '年收入': money,
            '住房': house,
            '車輛': car,
            '照片': img_url,
            '詳情頁': link,
        }
        csv_writer.writerow(dit)
        new_name = re.sub(r'[\/"*?<>|]', '', name)

獲取Cookie

效果展示

數據保存

最後

今天的分享到這裡就結束了，感興趣的朋友也可以去試試哈

對文章有問題的，或者有其他關於python的問題，可以在評論區留言或者私信我哦

覺得我分享的文章不錯的話，可以關註一下我，或者給文章點贊(/≧▽≦)/

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

記錄--JS-SDK頁面打開提示realAuthUrl錯誤

這裡給大家分享我在網上總結出來的一些知識，希望對大家有所幫助測試環境好好地功能，上了生產，莫名其妙報錯，開始以為是沒有設置Js安全介面功能變數名稱，結果讓相應人員一查，已經設置了相應的功能變數名稱，再看下公眾號內的介面許可權部分，相關js許可權也都是已授權，沒辦法，只能按照微信文檔上的常見錯誤及解決方法，設置debu ...
Fabric.js 拖放元素進畫布

本文簡介點贊 + 關註 + 收藏 = 學會了學習 Fabric.js，我的建議是看文檔不如看 demo。本文實現的功能：將元素拖進到畫布中並生成對應的圖形或圖片。效果如下圖所示：思路要實現以上效果，需要考慮以下幾點：元素有拖拽功能。能在畫布中生成對應的元素。畫佈有可能縮放。畫佈有 ...
== 與 ===

儘量不要用== ==的比較過程以 [] == ![] 為例左邊 [] 是個數組右邊 ![] 是個表達式，表示對數組取反，需要對數組進行布爾判定，數組是對象所以是true，取反之後為false，所以就相當於比較 == 兩邊數據類型不一樣會將數據轉變成原始類型，原始類型有 null 、 unde ...
uniapp小程式使用高德地圖api實現路線規劃

路線規劃簡介路線規劃常用於出行路線的提前預覽，我們提供4種類型的路線規劃，分別為：駕車、步行、公交和騎行，滿足各種的出行場景。高德開放平臺本例是駕車路線規劃功能和位置選擇地圖api:chooseLocation 示例： 1、在頁面的 js 文件中，實例化 AMapWX 對象，請求進行駕車路線 ...
Vue + Element 自定義上傳封面組件

前一段時間做項目，頻繁使用到上傳圖片組件，而且只上傳一個封面，於是想著自定義一個圖片封面上傳組件。先來看一下效果：第一張圖片是上傳之前，第二張圖片是上傳成功後，第3張圖片是滑鼠放上去之後的效果！首先整理需求，圖片上傳我們使用照片牆的方式，只能上傳一張圖片，圖片上傳成功後不能繼續上傳，如果想要更換 ...
讀編程與類型系統筆記03_組合

電銷是什麼？就是坐席拿著電話給客戶打電話嗎？no no no，讓我們一起走進京音平臺之電銷系統。京音平臺2020年初開始建設，過去的兩年多的時間里，經歷了跌宕起伏，有經驗、有教訓，整體來說平臺經歷了人工、自動化階段，目前處於初步智能化階段，希望可以將過去的一些心路歷程分享給大家，共同交流、共同進... ...
文檔字元串

1高階函數 1.1 數學概念回顧下數學知識： y=f(x) 這是最開始接觸的普通函數 y=g(f(x)) 這個就是我們接觸到的高階函數在數學和電腦科學中，高階函數至少應當是滿足下麵一個條件的函數： 1）接受一個或者多個函數作為參數 2）輸出一個函數程式中我們的高階函數也類似示例計數器的函數 ...
Redis 數據結構-雙向鏈表

Redis 數據結構-雙向鏈表最是人間留不住，朱顏辭鏡花辭樹。 1、簡介 Redis 之所以快主要得益於它的數據結構、操作記憶體資料庫、單線程和多路 I/O 復用模型，進一步窺探下它常見的五種基本數據的底層數據結構。 Redis 常見數據類型對應的的底層數據結構。 String：簡單動態字元串。 L ...