簡單的用Python抓取動態網頁數據,實現可視化數據分析

来源:https://www.cnblogs.com/hahaa/archive/2023/11/24/17853925.html
-Advertisement-
Play Games

一眨眼明天就周末了,一周過的真快! 今天咱們用Python來實現一下動態網頁數據的抓取 最近不是有消息說世界首富馬上要變成中國人了嗎,這要真成了,可就是歷史上首位中國世界首富了! 那我們就以富豪排行榜為例,爬取一下2023年國內富豪五百強,最後實現一下可視化分析。 準備工作 環境使用 Python ...


一眨眼明天就周末了,一周過的真快!

今天咱們用Python來實現一下動態網頁數據的抓取

最近不是有消息說世界首富馬上要變成中國人了嗎,這要真成了,可就是歷史上首位中國世界首富了!

那我們就以富豪排行榜為例,爬取一下2023年國內富豪五百強,最後實現一下可視化分析。

準備工作

環境使用

  • Python
  • Pycharm

模塊使用

  • re 正則表達式
  • csv <表格文件> 內置模塊 保存數據
  • requests >>> 數據請求
  • pandas >>> 保存表格
  • pyecharts >>> 可視化模塊

實現流程: <基本公式>

數據來源分析

  1. 明確需求: 明確採集的網站以及數據內容
    - 目標網址
  2. 抓包分析: 通過瀏覽器自帶工具 (開發者工具)
    - 打開開發者工具: F12 / 右鍵點檢查選擇network (網路)
    - 點擊下一頁按鈕
    數據包地址

代碼實現步驟

  1. 發送請求 -> 模擬瀏覽器對於url地址發送請求
    url地址: 分析找到鏈接地址
  2. 獲取數據 -> 獲取伺服器返迴響應數據
  3. 解析數據 -> 提取我們自己需要數據
  4. 保存數據 -> 保存到表格文件裡面

代碼解析

發送請求

for page in range(1, 35):
    print(f'{page}' * 20)
    # url地址: 請求網址
    url = f'https://service.ikuyu.cn/XinCaiFu2/pcremoting/bdListAction.do?method=getPage&callback=jsonpCallback&sortBy=assets&order=asc&type=4&keyword=&pageSize=15&year=2023&pageNo={page}&from=jsonp&_=1700739728273'
    # 模擬瀏覽器: 請求頭
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'
    }
    # 發送請求: 請求方法 <開發者工具>
    response = requests.get(url=url, headers=headers)

 

獲取數據

 data = response.text

 

解析數據

re.findall(‘匹配數據’, ‘數據源’) -> 從什麼地方去獲取什麼數據

# json字元串數據
html = re.findall('jsonpCallback\((.*)', data)[0].replace(')', '')
print(html)
# 轉成json字典 當你轉json數據報錯的時候 html不是完整json數據格式
json_data = json.loads(html)
# 鍵值對取值 提取 rows 列表 (根據冒號左邊的內容[鍵], 提取冒號右邊的內容[值])
rows = json_data['data']['rows']
# for迴圈遍歷
for row in rows:

 

創建文件對象

f = open('data.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '財富',
    '姓名',
    '主要公司',
    '相關行業',
    '公司總部省份',
    '公司總部城市',
    '性別',
    '年齡',
    '年份',
])
csv_writer.writeheader()

 

保存數據

dit = {
    '財富': row['assets'],
    '姓名': row['name'],
    '主要公司': row['company'],
    '相關行業': row['industry'],
    '公司總部省份': row['addr'][:2],
    '公司總部城市': row['addr'][-2:],
    '性別': row['sex'],
    '年齡': row['age'],
    '年份': row['year'],
}
csv_writer.writerow(dit)
print(row)
# 源碼+wei❤:python1018 領取

 

採集數據+可視化代碼我都打包好了,還有視頻講解,都在最後一段代碼中。

效果展示

好了,本次分享就到這結束了,咱們下次見~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 沒有什麼是不可能的,只是需要找到正確的方法。 1. 什麼是狀態? 狀態就是組件內部特有數據的載體(組件數據掛載方式),改變數據頁面就會刷新,由組件自己設置和更改,也就是說由組件自己產生、維護,使用狀態的目的就是為了在不同的狀態下使組件的顯示不同(自己管理),這在 React 中稱為:條件渲染。 為什 ...
  • Node.js是一個基於ChromeV8引擎的JavaScript運行環境,使用了一個事件驅動、非阻塞式I/O模型,讓JavaScript 運行在服務端的開發平臺,它讓JavaScript成為與PHP、Python、Perl、Ruby等服務端語言平起平坐的腳本語言。Node中增添了很多內置的模塊,提... ...
  • Promise對象用於清晰的處理非同步任務的完成,返回最終的結果值,本次分享主要介紹Promise的基本屬性以及Promise內部的基礎實現,能夠幫我們更明確使用場景、更快速定位問題。 ...
  • 公眾號「架構成長指南」,專註於生產實踐、雲原生、分散式系統、大數據技術分享。 資料庫和Redis如何保持強一致性,這篇文章告訴你 目的 Redis和Msql來保持數據同步,並且強一致,以此來提高對應介面的響應速度,剛開始考慮是用mybatis的二級緩存,發現坑不少,於是決定自己搞 要關註的問題點 操 ...
  • 十六、C++字元串(一) 1、原生字元串實現將兩個字元串拼接 //原生字元串實現將兩個字元串拼接 #include <iostream> #include <locale> int main() { char strA[0x10] = "123"; //定義字元串 char strB[0x10] = ...
  • ReentrantReadWriteLock讀寫鎖 樂觀鎖和悲觀鎖 樂觀鎖 樂觀鎖,就是給需要共用的數據,添加一個版本號version,例如1,每次有線程更新共用數據後,version+1,每次線程進行數據更新時,要比較當前線程持有的數據的版本號,相等則修改,不相等則不修改,支持併發訪問。 悲觀鎖 ...
  • 哈嘍大家好,我是鹹魚 接觸過 Python 的小伙伴應該對【字典】這一數據類型都瞭解吧 雖然 Python 沒有顯式名稱為“哈希表”的內置數據結構,但是字典是哈希表實現的數據結構 在 Python 中,字典的鍵(key)被哈希,哈希值決定了鍵對應的值(value)在字典底層數據存儲中的位置 那麼今天 ...
  • 0 大綱 [Apache Flink]2017年12月發佈的1.4.0版本開始,為流計算引入里程碑特性:TwoPhaseCommitSinkFunction。它提取了兩階段提交協議的通用邏輯,使得通過Flink來構建端到端的Exactly-Once程式成為可能。同時支持: 數據源(source) 和 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...