Pandas 載入數據的方法和技巧

来源:https://www.cnblogs.com/edisonfish/archive/2023/05/29/17441220.html
-Advertisement-
Play Games

哈嘍大家好,我是鹹魚 相信小伙伴們在學習 python 數據分析的過程中或多或少都會聽說或者使用過 pandas pandas 是 python 的一個拓展庫,常用於數據分析 今天鹹魚將介紹幾個關於 pandas 導入數據的方法和技巧 ## 從 URL 獲取 csv 數據 關於 pandas 導入 ...


哈嘍大家好,我是鹹魚

相信小伙伴們在學習 python 數據分析的過程中或多或少都會聽說或者使用過 pandas

pandas 是 python 的一個拓展庫,常用於數據分析

今天鹹魚將介紹幾個關於 pandas 導入數據的方法和技巧

從 URL 獲取 csv 數據

關於 pandas 導入 csv 數據,使用的是下麵這個方法

pandas.read_csv()

但是這個方法可以通過 HTTP 從 URL 來獲取 CSV 數據

關於通過 HTTP 從 URL 來獲取 CSV 數據,我在之前的文章《為什麼訪問同一個網址卻返回不同的內容》有介紹過

例如下麵的例子將展示如何通過 URL 獲取 csv 文件
image

url = 'https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/boston_house_prices.csv'

df = pandas.read_csv(url)

通過 URL 來獲取 CSV 數據,可以省去了需要先將 CSV 文件保存在本地這一步驟

從網站獲取 HTML table 數據

pandas.read_html() 用於獲取 HTML 文件中的 table 數據(即<table>標簽的表格數據)

我們看下麵的例子

import pandas as pd

url = 'http://weather.sina.com.cn/china/shanghaishi/'
df_tables = pd.read_html(url)
print(df_tables)

image
通過 pandas.read_html() 可以實現簡易爬蟲

JSON 數據格式化

有時候我們在處理 JSON 數據的時候,會發現 JSON 數據通常都是嵌套好多層

如果我們想要將 JSON 數據轉換成表格數據,使其扁平化,我們可以用下麵的方法來實現

pandas.json_normalize()

看下麵的例子

impor pandas as pd

data =[
    {
      "id": "A001",
      "name": "鹹魚運維雜談",
      "url": "https://www.cnblogs.com/edisonfish/",
      "likes": 61
    },
    {
      "id": "A002",
      "name": "Google",
      "url": "www.google.com",
      "likes": 124
    },
    {
      "id": "A003",
      "name": "淘寶",
      "url": "www.taobao.com",
      "likes": 45
    }
  ]

df = pd.json_normalize(data)
print(df)

結果如下

     id    name      url                                    likes
0  A001  鹹魚運維雜談  https://www.cnblogs.com/edisonfish/    61
1  A002  Google      www.google.com                         124
2  A003   淘寶        www.taobao.com                         45

接下來,讓我們嘗試讀取更複雜的 JSON 數據,該數據嵌套了列表和字典

import pandas as pd

data ={
    "school_name": "local primary school",
    "class": "Year 1",
    "info": {
      "president": "John Kasich",
      "address": "ABC road, London, UK",
      "contacts": {
        "email": "[email protected]",
        "tel": "123456789"
      }
    },
    "students": [
    {
        "id": "A001",
        "name": "Tom",
        "math": 60,
        "physics": 66,
        "chemistry": 61
    },
    {
        "id": "A002",
        "name": "James",
        "math": 89,
        "physics": 76,
        "chemistry": 51
    },
    {
        "id": "A003",
        "name": "Jenny",
        "math": 79,
        "physics": 90,
        "chemistry": 78
    }]
}


# 展平數據
df = pd.json_normalize(
    data,
    record_path =['students'],
    meta=[
        'class',
        ['info', 'president'],
        ['info', 'contacts', 'tel']
    ]
)
print(df)

結果如下

     id   name  math  ...   class  info.president info.contacts.tel
0  A001    Tom    60  ...  Year 1     John Kasich         123456789
1  A002  James    89  ...  Year 1     John Kasich         123456789
2  A003  Jenny    79  ...  Year 1     John Kasich         123456789

[3 rows x 8 columns]

從剪貼板獲取數據

pandas 的 read_clipboard() 方法可以獲取存儲在剪貼板上的任何數據

假設你將數據從網上要複製粘貼到本地,那麼用 pandas 的 read_clipboard() 方法可以直接讀取剪貼板的內容

預設情況下採取正則表達式\s+ 作為分隔值的分隔符(即匹配一個或多個空格、製表符、換行符等空白字元作為分隔符),然後將剪貼板上的數據分割成表格數據

import pandas as pd

df = pd.read_clipboard()

print(df)

參考文章:https://jrashford.com/2022/08/02/loading-data-into-pandas-5-tips-and-tricks-you-may-or-may-not-know/


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • groovy 3.0.7 ## 代碼實現 ### 實現方式1 ```groovy import java.security.MessageDigest; public class MD5Utils { public final static String MD5(String s) { char[] ...
  • QCustomPlot 是開源項目,源碼編寫十分規範,想要理解它的可視化思路不算特別困難。我在這篇隨筆中總結一下常用的源碼修改技巧,下麵的每一個技巧都是獨立的,不同技巧中添加的代碼無任何依賴關係,相互之間也不會引發任何衝突,不會影響 QCustomPlot 原生的介面。示例中使用的 QCustomP... ...
  • HashMap是Java中常用的數據結構之一,它提供了高效的鍵值對存儲和檢索功能。下麵是HashMap底層的詳細原理介紹: 1. 數據結構:HashMap底層使用數組和鏈表(或紅黑樹)的組合實現。它通過哈希演算法將鍵轉換為數組索引,並將值存儲在對應索引位置上。 2. 哈希演算法:當我們向HashMap中 ...
  • # 常用的排序演算法 ## 一、冒泡排序 冒泡排序(Bubble Sort),是一種較簡單的排序演算法。 它重覆地走訪過要排序的元素列,依次比較兩個相鄰的元素,如果順序(如從大到小、首字母從Z到A)錯誤就把他們交換過來。走訪元素的工作是重覆地進行直到沒有相鄰元素需要交換,也就是說該元素列已經排序完成。 ...
  • > 本文首發於公眾號:Hunter後端 > 原文鏈接:[Python連接es筆記二之查詢方式彙總](https://mp.weixin.qq.com/s/0Yn5c-U9pBWrSC5HrCgWog) 上一節除了介紹使用 Python 連接 es,還有最簡單的 query() 方法,這一節介紹一下幾 ...
  • Python3 支持int(整型數據)、float(浮點型數據)、bool(布爾類型) # 1.int(整型數據) 在Python 3里,**只有一種整數類型 int,表示為長整型**。像大多數語言一樣,數值類型的賦值和計算都是很直觀的。 ## 1.1數值運算 編寫程式如下所示 ![image](h ...
  • ## 聊一下MySQL 關於mysql關係型資料庫的一些分析: 1、從性能上:如果我們碰到需要執行耗時特別久,並且執行結果不是很頻繁變動的SQL語句,我們就沒有必要每次都去查詢資料庫,因為每次操作資料庫都很耗時。 2、從併發上:在大併發的情況下(比如618秒殺活動,你敢讓千萬級的請求直接打到資料庫上 ...
  • 歡迎來到系列第八篇,異常處理的深入探討。本文將分五部分展開。首先,我們將學習Python異常處理的基礎知識,理解`try/except`語句的用法。然後,我們將瞭解Python的常見異常類型並通過實例理解它們的作用。第三部分,我們將更深入地解析`try-except`塊,理解其工作原理及更加複雜的用... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...