Pandas 載入數據的方法和技巧

来源:https://www.cnblogs.com/edisonfish/archive/2023/05/29/17441220.html
-Advertisement-
Play Games

哈嘍大家好,我是鹹魚 相信小伙伴們在學習 python 數據分析的過程中或多或少都會聽說或者使用過 pandas pandas 是 python 的一個拓展庫,常用於數據分析 今天鹹魚將介紹幾個關於 pandas 導入數據的方法和技巧 ## 從 URL 獲取 csv 數據 關於 pandas 導入 ...


哈嘍大家好,我是鹹魚

相信小伙伴們在學習 python 數據分析的過程中或多或少都會聽說或者使用過 pandas

pandas 是 python 的一個拓展庫,常用於數據分析

今天鹹魚將介紹幾個關於 pandas 導入數據的方法和技巧

從 URL 獲取 csv 數據

關於 pandas 導入 csv 數據,使用的是下麵這個方法

pandas.read_csv()

但是這個方法可以通過 HTTP 從 URL 來獲取 CSV 數據

關於通過 HTTP 從 URL 來獲取 CSV 數據,我在之前的文章《為什麼訪問同一個網址卻返回不同的內容》有介紹過

例如下麵的例子將展示如何通過 URL 獲取 csv 文件
image

url = 'https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/boston_house_prices.csv'

df = pandas.read_csv(url)

通過 URL 來獲取 CSV 數據,可以省去了需要先將 CSV 文件保存在本地這一步驟

從網站獲取 HTML table 數據

pandas.read_html() 用於獲取 HTML 文件中的 table 數據(即<table>標簽的表格數據)

我們看下麵的例子

import pandas as pd

url = 'http://weather.sina.com.cn/china/shanghaishi/'
df_tables = pd.read_html(url)
print(df_tables)

image
通過 pandas.read_html() 可以實現簡易爬蟲

JSON 數據格式化

有時候我們在處理 JSON 數據的時候,會發現 JSON 數據通常都是嵌套好多層

如果我們想要將 JSON 數據轉換成表格數據,使其扁平化,我們可以用下麵的方法來實現

pandas.json_normalize()

看下麵的例子

impor pandas as pd

data =[
    {
      "id": "A001",
      "name": "鹹魚運維雜談",
      "url": "https://www.cnblogs.com/edisonfish/",
      "likes": 61
    },
    {
      "id": "A002",
      "name": "Google",
      "url": "www.google.com",
      "likes": 124
    },
    {
      "id": "A003",
      "name": "淘寶",
      "url": "www.taobao.com",
      "likes": 45
    }
  ]

df = pd.json_normalize(data)
print(df)

結果如下

     id    name      url                                    likes
0  A001  鹹魚運維雜談  https://www.cnblogs.com/edisonfish/    61
1  A002  Google      www.google.com                         124
2  A003   淘寶        www.taobao.com                         45

接下來,讓我們嘗試讀取更複雜的 JSON 數據,該數據嵌套了列表和字典

import pandas as pd

data ={
    "school_name": "local primary school",
    "class": "Year 1",
    "info": {
      "president": "John Kasich",
      "address": "ABC road, London, UK",
      "contacts": {
        "email": "[email protected]",
        "tel": "123456789"
      }
    },
    "students": [
    {
        "id": "A001",
        "name": "Tom",
        "math": 60,
        "physics": 66,
        "chemistry": 61
    },
    {
        "id": "A002",
        "name": "James",
        "math": 89,
        "physics": 76,
        "chemistry": 51
    },
    {
        "id": "A003",
        "name": "Jenny",
        "math": 79,
        "physics": 90,
        "chemistry": 78
    }]
}


# 展平數據
df = pd.json_normalize(
    data,
    record_path =['students'],
    meta=[
        'class',
        ['info', 'president'],
        ['info', 'contacts', 'tel']
    ]
)
print(df)

結果如下

     id   name  math  ...   class  info.president info.contacts.tel
0  A001    Tom    60  ...  Year 1     John Kasich         123456789
1  A002  James    89  ...  Year 1     John Kasich         123456789
2  A003  Jenny    79  ...  Year 1     John Kasich         123456789

[3 rows x 8 columns]

從剪貼板獲取數據

pandas 的 read_clipboard() 方法可以獲取存儲在剪貼板上的任何數據

假設你將數據從網上要複製粘貼到本地,那麼用 pandas 的 read_clipboard() 方法可以直接讀取剪貼板的內容

預設情況下採取正則表達式\s+ 作為分隔值的分隔符(即匹配一個或多個空格、製表符、換行符等空白字元作為分隔符),然後將剪貼板上的數據分割成表格數據

import pandas as pd

df = pd.read_clipboard()

print(df)

參考文章:https://jrashford.com/2022/08/02/loading-data-into-pandas-5-tips-and-tricks-you-may-or-may-not-know/


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • groovy 3.0.7 ## 代碼實現 ### 實現方式1 ```groovy import java.security.MessageDigest; public class MD5Utils { public final static String MD5(String s) { char[] ...
  • QCustomPlot 是開源項目,源碼編寫十分規範,想要理解它的可視化思路不算特別困難。我在這篇隨筆中總結一下常用的源碼修改技巧,下麵的每一個技巧都是獨立的,不同技巧中添加的代碼無任何依賴關係,相互之間也不會引發任何衝突,不會影響 QCustomPlot 原生的介面。示例中使用的 QCustomP... ...
  • HashMap是Java中常用的數據結構之一,它提供了高效的鍵值對存儲和檢索功能。下麵是HashMap底層的詳細原理介紹: 1. 數據結構:HashMap底層使用數組和鏈表(或紅黑樹)的組合實現。它通過哈希演算法將鍵轉換為數組索引,並將值存儲在對應索引位置上。 2. 哈希演算法:當我們向HashMap中 ...
  • # 常用的排序演算法 ## 一、冒泡排序 冒泡排序(Bubble Sort),是一種較簡單的排序演算法。 它重覆地走訪過要排序的元素列,依次比較兩個相鄰的元素,如果順序(如從大到小、首字母從Z到A)錯誤就把他們交換過來。走訪元素的工作是重覆地進行直到沒有相鄰元素需要交換,也就是說該元素列已經排序完成。 ...
  • > 本文首發於公眾號:Hunter後端 > 原文鏈接:[Python連接es筆記二之查詢方式彙總](https://mp.weixin.qq.com/s/0Yn5c-U9pBWrSC5HrCgWog) 上一節除了介紹使用 Python 連接 es,還有最簡單的 query() 方法,這一節介紹一下幾 ...
  • Python3 支持int(整型數據)、float(浮點型數據)、bool(布爾類型) # 1.int(整型數據) 在Python 3里,**只有一種整數類型 int,表示為長整型**。像大多數語言一樣,數值類型的賦值和計算都是很直觀的。 ## 1.1數值運算 編寫程式如下所示 ![image](h ...
  • ## 聊一下MySQL 關於mysql關係型資料庫的一些分析: 1、從性能上:如果我們碰到需要執行耗時特別久,並且執行結果不是很頻繁變動的SQL語句,我們就沒有必要每次都去查詢資料庫,因為每次操作資料庫都很耗時。 2、從併發上:在大併發的情況下(比如618秒殺活動,你敢讓千萬級的請求直接打到資料庫上 ...
  • 歡迎來到系列第八篇,異常處理的深入探討。本文將分五部分展開。首先,我們將學習Python異常處理的基礎知識,理解`try/except`語句的用法。然後,我們將瞭解Python的常見異常類型並通過實例理解它們的作用。第三部分,我們將更深入地解析`try-except`塊,理解其工作原理及更加複雜的用... ...
一周排行
    -Advertisement-
    Play Games
  • C#TMS系統代碼-基礎頁面BaseCity學習 本人純新手,剛進公司跟領導報道,我說我是java全棧,他問我會不會C#,我說大學學過,他說這個TMS系統就給你來管了。外包已經把代碼給我了,這幾天先把增刪改查的代碼背一下,說不定後面就要趕鴨子上架了 Service頁面 //using => impo ...
  • 委托與事件 委托 委托的定義 委托是C#中的一種類型,用於存儲對方法的引用。它允許將方法作為參數傳遞給其他方法,實現回調、事件處理和動態調用等功能。通俗來講,就是委托包含方法的記憶體地址,方法匹配與委托相同的簽名,因此通過使用正確的參數類型來調用方法。 委托的特性 引用方法:委托允許存儲對方法的引用, ...
  • 前言 這幾天閑來沒事看看ABP vNext的文檔和源碼,關於關於依賴註入(屬性註入)這塊兒產生了興趣。 我們都知道。Volo.ABP 依賴註入容器使用了第三方組件Autofac實現的。有三種註入方式,構造函數註入和方法註入和屬性註入。 ABP的屬性註入原則參考如下: 這時候我就開始疑惑了,因為我知道 ...
  • C#TMS系統代碼-業務頁面ShippingNotice學習 學一個業務頁面,ok,領導開完會就被裁掉了,很突然啊,他收拾東西的時候我還以為他要旅游提前請假了,還在尋思為什麼回家連自己買的幾箱飲料都要叫跑腿帶走,怕被偷嗎?還好我在他開會之前拿了兩瓶芬達 感覺感覺前面的BaseCity差不太多,這邊的 ...
  • 概述:在C#中,通過`Expression`類、`AndAlso`和`OrElse`方法可組合兩個`Expression<Func<T, bool>>`,實現多條件動態查詢。通過創建表達式樹,可輕鬆構建複雜的查詢條件。 在C#中,可以使用AndAlso和OrElse方法組合兩個Expression< ...
  • 閑來無聊在我的Biwen.QuickApi中實現一下極簡的事件匯流排,其實代碼還是蠻簡單的,對於初學者可能有些幫助 就貼出來,有什麼不足的地方也歡迎板磚交流~ 首先定義一個事件約定的空介面 public interface IEvent{} 然後定義事件訂閱者介面 public interface I ...
  • 1. 案例 成某三甲醫預約系統, 該項目在2024年初進行上線測試,在正常運行了兩天後,業務系統報錯:The connection pool has been exhausted, either raise MaxPoolSize (currently 800) or Timeout (curren ...
  • 背景 我們有些工具在 Web 版中已經有了很好的實踐,而在 WPF 中重新開發也是一種費時費力的操作,那麼直接集成則是最省事省力的方法了。 思路解釋 為什麼要使用 WPF?莫問為什麼,老 C# 開發的堅持,另外因為 Windows 上已經裝了 Webview2/edge 整體打包比 electron ...
  • EDP是一套集組織架構,許可權框架【功能許可權,操作許可權,數據訪問許可權,WebApi許可權】,自動化日誌,動態Interface,WebApi管理等基礎功能於一體的,基於.net的企業應用開發框架。通過友好的編碼方式實現數據行、列許可權的管控。 ...
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...