Python 動態網頁Fetch/XHR爬蟲——以獲取NBA球員信息為例

来源:https://www.cnblogs.com/WeiRonbbin/archive/2022/08/25/16623355.html
-Advertisement-
Play Games

Python 動態網頁Fetch/XHR爬蟲——以獲取NBA球員信息為例 動態網頁抓取信息,一般利用F12開發者工具-網路-Fetch/XHR獲取信息,實現難點有: 動態網頁的載入方式 獲取請求Url 編排處理Headers 分析返回的數據Json pandas DataFrame的處理 我們本次想 ...


Python 動態網頁Fetch/XHR爬蟲——以獲取NBA球員信息為例

動態網頁抓取信息,一般利用F12開發者工具-網路-Fetch/XHR獲取信息,實現難點有:

    1. 動態網頁的載入方式

    2. 獲取請求Url

    3. 編排處理Headers

    4. 分析返回的數據Json

    5. pandas DataFrame的處理

 

我們本次想獲取的信息如下:image-20220825100045691

 

成功獲取到的csv一共506位球員,具體如下:

image-20220825100536276

 

實現代碼:

 import requests
 import pandas as pd
 ​
 def get_headers(header_raw):
    return dict(line.split(": ", 1) for line in header_raw.split("\n") if line != '')
 ​
 # 設置headers
 headers_str = '''
 accept: application/json, text/plain, */*
 accept-encoding: gzip, deflate, br
 accept-language: zh-CN,zh;q=0.9
 referer: https://china.nba.cn/playerindex/
 sec-ch-ua: " Not A;Brand";v="99", "Chromium";v="96", "Google Chrome";v="96"
 sec-ch-ua-mobile: ?0
 sec-ch-ua-platform: "Windows"
 sec-fetch-dest: empty
 sec-fetch-mode: cors
 sec-fetch-site: same-origin
 cookie: sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22182d0029f842fc-0d281a685dd4e08-4303066-2400692-182d0029f85406%22%2C%22first_id%22%3A%22%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%2C%22%24latest_referrer%22%3A%22%22%7D%2C%22identities%22%3A%22eyIkaWRlbnRpdHlfY29va2llX2lkIjoiMTgyZDAwMjlmODQyZmMtMGQyODFhNjg1ZGQ0ZTA4LTQzMDMwNjYtMjQwMDY5Mi0xODJkMDAyOWY4NTQwNiJ9%22%2C%22history_login_id%22%3A%7B%22name%22%3A%22%22%2C%22value%22%3A%22%22%7D%2C%22%24device_id%22%3A%22182d0029f842fc-0d281a685dd4e08-4303066-2400692-182d0029f85406%22%7D; privacyV2=true; i18next=zh_CN; locale=zh_CN
 user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36
 '''
 headers = get_headers(headers_str)
 # print(headers)
 ​
 # requests請求
 param = {'locale': 'zh_CN'}
 url = 'https://china.nba.cn/stats2/league/playerlist.json'
 response = requests.get(url=url, headers=headers, params=param)
 ​
 print('返回狀態碼:', response.status_code)
 print('編碼:', response.encoding)
 ​
 # json解碼成字典
 myjson = response.json()
 ​
 # 保存為pandas DataFrame
 # print(players_dicts['playerProfile'])
 # print(players_dicts['teamProfile'])
 ​
 # 遍歷選手信息
 players_info = []
 for players_dicts in myjson['payload']['players']:
     players_info.append(pd.DataFrame([players_dicts['playerProfile']]))
 ​
 # 遍歷隊伍簡介信息
 teams_info = []
 for players_dicts in myjson['payload']['players']:
     teams_info.append(pd.DataFrame([players_dicts['teamProfile']]))
 ​
 # 得到兩個DataFrame
 players_pandas = pd.concat(players_info)
 teams_pandas = pd.concat(teams_info)
 ​
 # 合併得到最終DataFrame
 result = pd.concat([players_pandas, teams_pandas], axis=1)
 result.to_csv(r'C:\Users\WeiRonbbin\Desktop\NBA_Players1.csv')


WeiRonbbin

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 泛型—— 一種可以接收數據類型的數據類型,本文將通俗講解Java泛型的優點、方法及相關細節。 一、泛型的引入 我們都知道,繼承是面向對象的三大特性之一,比如在我們向集合中添加元素的過程中add()方法里填入的是Object類,而Object又是所有類的父類,這就產生了一個問題——添加的類型無法做到統 ...
  • 在練習格式化輸出時出現錯誤TypeError: can't multiply sequence by non-int of type 'float' 為什麼會出現TypeError:不能將序列乘以’float’類型的非整數? 實際情況是,這裡隱藏著一個優先順序的問題 我們發現一般情況下我們在格式化輸出 ...
  • docker-compose容器編排 為什麼使用docker-compose ​ 我們學會了使用 dockerfile 構建 docker 鏡像,看起來已經能夠滿足我們的日常需求了,無論需要什麼環境,在 dockerfile 里逐步構建,然後 build、run,就 ok 了,也滿足了我們docke ...
  • 《零起點Python機器學習快速入門》PDF高清版下載地址 內容簡介 · · · · · · 《零起點Python機器學習快速入門》採用獨創的黑箱模式,MBA案例教學機制,結合一線實戰案例,介紹 Sklearn人工智慧模塊庫和常用的機器學習演算法。《零起點Python機器學習快速入門》中配備大量圖表說 ...
  • 你們知道,“當任務數超過線程池的核心線程數時,如何讓它不進入隊列,而是直接啟用最大線程數”嗎? 大家好,我是Mic,一個工作了14年的Java程式員。 剛剛這個問題是一個工作5年的粉絲最近去某互聯網公司面試遇到的。 關於這個問題,我把高手的回答整理到了一個15W字的面試文檔裡面。 大家可以私信我領取 ...
  • 《貝葉斯思維統計建模的PYTHON學習法》pdf高清版下載地址 內容簡介 · · · · · · 這本書幫助那些希望用數學工具解決實際問題的人們,僅有的要求可能就是懂一點概率知識和程式設計。而貝葉斯方法是一種常見的利用概率學知識去解決不確定性問題的數學方法,對於一個電腦專業的人士,應當熟悉其應用在 ...
  • 目錄 一.OpenGL ES 波浪特效效果演示 1.原始圖片 2.效果演示 二.OpenGL ES 波浪特效源碼下載 三.猜你喜歡 零基礎 OpenGL ES 學習路線推薦 : OpenGL ES 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL ES 學習路線推薦 : OpenGL ...
  • Java中的命名規則 在查找java命名規則時,未在國內相關網站查找到較為完整的文章,這是一篇國外程式開發人員寫的java命名規則的文章,原文是英文寫的,為了便於閱讀,遂翻譯為漢語,以便幫助國內開發者有所瞭解。 原文地址:https://www.geeksforgeeks.org/java-nami ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...