Pandas 載入數據的方法和技巧_ZenDei技術網路在線

Pandas 載入數據的方法和技巧

-Advertisement-

哈嘍大家好，我是鹹魚相信小伙伴們在學習 python 數據分析的過程中或多或少都會聽說或者使用過 pandas pandas 是 python 的一個拓展庫，常用於數據分析今天鹹魚將介紹幾個關於 pandas 導入數據的方法和技巧 ## 從 URL 獲取 csv 數據關於 pandas 導入 ...

哈嘍大家好，我是鹹魚

相信小伙伴們在學習 python 數據分析的過程中或多或少都會聽說或者使用過 pandas

pandas 是 python 的一個拓展庫，常用於數據分析

今天鹹魚將介紹幾個關於 pandas 導入數據的方法和技巧

從 URL 獲取 csv 數據

關於 pandas 導入 csv 數據，使用的是下麵這個方法

pandas.read_csv()

但是這個方法可以通過 HTTP 從 URL 來獲取 CSV 數據

關於通過 HTTP 從 URL 來獲取 CSV 數據，我在之前的文章《為什麼訪問同一個網址卻返回不同的內容》有介紹過

例如下麵的例子將展示如何通過 URL 獲取 csv 文件

url = 'https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/boston_house_prices.csv'

df = pandas.read_csv(url)

通過 URL 來獲取 CSV 數據，可以省去了需要先將 CSV 文件保存在本地這一步驟

從網站獲取 HTML table 數據

pandas.read_html() 用於獲取 HTML 文件中的 table 數據（即<table>標簽的表格數據）

我們看下麵的例子

import pandas as pd

url = 'http://weather.sina.com.cn/china/shanghaishi/'
df_tables = pd.read_html(url)
print(df_tables)

通過 pandas.read_html() 可以實現簡易爬蟲

JSON 數據格式化

有時候我們在處理 JSON 數據的時候，會發現 JSON 數據通常都是嵌套好多層

如果我們想要將 JSON 數據轉換成表格數據，使其扁平化，我們可以用下麵的方法來實現

pandas.json_normalize()

看下麵的例子

impor pandas as pd

data =[
    {
      "id": "A001",
      "name": "鹹魚運維雜談",
      "url": "https://www.cnblogs.com/edisonfish/",
      "likes": 61
    },
    {
      "id": "A002",
      "name": "Google",
      "url": "www.google.com",
      "likes": 124
    },
    {
      "id": "A003",
      "name": "淘寶",
      "url": "www.taobao.com",
      "likes": 45
    }
  ]

df = pd.json_normalize(data)
print(df)

結果如下

     id    name      url                                    likes
0  A001  鹹魚運維雜談  https://www.cnblogs.com/edisonfish/    61
1  A002  Google      www.google.com                         124
2  A003   淘寶        www.taobao.com                         45

接下來，讓我們嘗試讀取更複雜的 JSON 數據，該數據嵌套了列表和字典

import pandas as pd

data ={
    "school_name": "local primary school",
    "class": "Year 1",
    "info": {
      "president": "John Kasich",
      "address": "ABC road, London, UK",
      "contacts": {
        "email": "[email protected]",
        "tel": "123456789"
      }
    },
    "students": [
    {
        "id": "A001",
        "name": "Tom",
        "math": 60,
        "physics": 66,
        "chemistry": 61
    },
    {
        "id": "A002",
        "name": "James",
        "math": 89,
        "physics": 76,
        "chemistry": 51
    },
    {
        "id": "A003",
        "name": "Jenny",
        "math": 79,
        "physics": 90,
        "chemistry": 78
    }]
}


# 展平數據
df = pd.json_normalize(
    data,
    record_path =['students'],
    meta=[
        'class',
        ['info', 'president'],
        ['info', 'contacts', 'tel']
    ]
)
print(df)

結果如下

     id   name  math  ...   class  info.president info.contacts.tel
0  A001    Tom    60  ...  Year 1     John Kasich         123456789
1  A002  James    89  ...  Year 1     John Kasich         123456789
2  A003  Jenny    79  ...  Year 1     John Kasich         123456789

[3 rows x 8 columns]

從剪貼板獲取數據

pandas 的 read_clipboard() 方法可以獲取存儲在剪貼板上的任何數據

假設你將數據從網上要複製粘貼到本地，那麼用 pandas 的 read_clipboard() 方法可以直接讀取剪貼板的內容

預設情況下採取正則表達式\s+ 作為分隔值的分隔符（即匹配一個或多個空格、製表符、換行符等空白字元作為分隔符），然後將剪貼板上的數據分割成表格數據

import pandas as pd

df = pd.read_clipboard()

print(df)

參考文章：https://jrashford.com/2022/08/02/loading-data-into-pandas-5-tips-and-tricks-you-may-or-may-not-know/

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Groovy 基於Groovy實現MD5加密

groovy 3.0.7 ## 代碼實現 ### 實現方式1 ```groovy import java.security.MessageDigest; public class MD5Utils { public final static String MD5(String s) { char[] ...
【QCustomPlot】性能提升之修改源碼（版本 V2.x.x）

QCustomPlot 是開源項目，源碼編寫十分規範，想要理解它的可視化思路不算特別困難。我在這篇隨筆中總結一下常用的源碼修改技巧，下麵的每一個技巧都是獨立的，不同技巧中添加的代碼無任何依賴關係，相互之間也不會引發任何衝突，不會影響 QCustomPlot 原生的介面。示例中使用的 QCustomP... ...
HashMap底層原理

HashMap是Java中常用的數據結構之一，它提供了高效的鍵值對存儲和檢索功能。下麵是HashMap底層的詳細原理介紹： 1. 數據結構：HashMap底層使用數組和鏈表（或紅黑樹）的組合實現。它通過哈希演算法將鍵轉換為數組索引，並將值存儲在對應索引位置上。 2. 哈希演算法：當我們向HashMap中 ...
常用的排序演算法總結

# 常用的排序演算法 ## 一、冒泡排序冒泡排序（Bubble Sort），是一種較簡單的排序演算法。它重覆地走訪過要排序的元素列，依次比較兩個相鄰的元素，如果順序（如從大到小、首字母從Z到A）錯誤就把他們交換過來。走訪元素的工作是重覆地進行直到沒有相鄰元素需要交換，也就是說該元素列已經排序完成。 ...
Python連接es筆記二之查詢方式彙總

> 本文首發於公眾號：Hunter後端 > 原文鏈接：[Python連接es筆記二之查詢方式彙總](https://mp.weixin.qq.com/s/0Yn5c-U9pBWrSC5HrCgWog) 上一節除了介紹使用 Python 連接 es，還有最簡單的 query() 方法，這一節介紹一下幾 ...
【python基礎】基本數據類型-數字類型

Python3 支持int(整型數據)、float(浮點型數據)、bool(布爾類型) # 1.int(整型數據) 在Python 3里，**只有一種整數類型 int，表示為長整型**。像大多數語言一樣，數值類型的賦值和計算都是很直觀的。 ## 1.1數值運算編寫程式如下所示 ![image](h ...
Redis+分散式+秒殺

## 聊一下MySQL 關於mysql關係型資料庫的一些分析： 1、從性能上：如果我們碰到需要執行耗時特別久，並且執行結果不是很頻繁變動的SQL語句，我們就沒有必要每次都去查詢資料庫，因為每次操作資料庫都很耗時。 2、從併發上：在大併發的情況下（比如618秒殺活動，你敢讓千萬級的請求直接打到資料庫上 ...
< Python全景系列-8 > Python超薄感知，超強保護：異常處理的絕佳實踐

歡迎來到系列第八篇，異常處理的深入探討。本文將分五部分展開。首先，我們將學習Python異常處理的基礎知識，理解`try/except`語句的用法。然後，我們將瞭解Python的常見異常類型並通過實例理解它們的作用。第三部分，我們將更深入地解析`try-except`塊，理解其工作原理及更加複雜的用... ...