使用 Python 處理 Json 數據

来源:https://www.cnblogs.com/kylinxxx/archive/2022/10/01/16748045.html
-Advertisement-
Play Games

一、引言:什麼是 JSON JSON (Java Script Object Notation) 是一種很常用的數據格式,它常常用在 web 應用程式中。它可以表示結構化的數據。 下麵是常見的 JSON 文件結構 { "name": "Kamishiro Rize", "age": "22", "o ...


一、引言:什麼是 JSON

JSON (Java Script Object Notation) 是一種很常用的數據格式,它常常用在 web 應用程式中。它可以表示結構化的數據。

下麵是常見的 JSON 文件結構

{
    "name": "Kamishiro Rize",
    "age": "22",
    "occupation": "firefighter",
    "traits": [
        "Eagle Eyed",
        "Fast Healer",
        "High Thirst",
        "Hearty Appetite"
    ]
}

它看起來與 Python 的 字典非常類似,也是由 key - value 結對組成,其中key是字元串形式,value是字元串、數字、布爾值、數組、對象或null。key/value間均使用逗號進行區分。

在 Python 中,JSON 作為字元串存在

json_str = '{"name": "Kamishiro Rize", "age": "22", "profession": "firefighter", "traits": ["Eagle Eyed", "Fast Healer", "High Thirst", "Hearty Appetite"]}'

JSON 與 Python 的數據結構和對應關係如下:

JSON PYTHON
object dict
array list, tuple
string str, unicode
number int, long, float
true / false True / False
null None

要使用 JSON ,字元串或者包含 JSON 對象的文件,都可以使用 Python 的內置包 json 模塊。

import json

二、示例:在 Python 中解析 JSON

JSON 模組的常用方法

load / loads: 把 JSON 轉換為 Python

  • loads()
# some json
somebody_info = '{"name": "Wenjie Ye", "age": 75, "nationality": "China"}'

# parse to dict
j = json.loads(somebody_info)

# show result
print(j["name"])
print(j["age"])
print(type(j))

結果

Wenjie Ye
75
<class 'dict'>

將 JSON 轉換為 Python 後,其結果的類型為字典

  • load()
# some json
somebody_info = '{"name": "Wenjie Ye", "age": 75, "nationality": "China"}'

# use json.load
# j = json.load(somebody_info)  # AttributeError: 'str' object has no attribute 'read'

from io import StringIO
io = StringIO(somebody_info)
j = json.load(io)
print(type(j))
print(j)

load() 是從json格式的文件中讀取數據並轉換為python的類型。適用於文件讀取,所以我們按 loads() 的例子來操作是會出錯的,可以使用 StringIO 轉換一下。load() 的結果也是返回字典

<class 'dict'>
{'name': 'Wenjie Ye', 'age': 75, 'nationality': 'China'}

dump / dumps: 把 Python 轉換為 JSON

  • dumps()
python_dict = {
    'name': 'Wenjie Ye',
    'age': 75,
    'nationality': 'China',
}

# convert to JSON
j = json.dumps(python_dict)

# result
print(j)
print(type(j))

轉換後的結果返回字元串

{"name": "Wenjie Ye", "age": 75, "nationality": "China"}
<class 'str'>
  • dump()

有了 load() 的經驗,你應該知道,不帶 s 的 dump 方法是用來將python數據類型轉換並保存到json格式的文件內的。

from io import StringIO

io = StringIO()
json.dump('{"name": "Wenjie Ye", "age": 75, "nationality": "China"}', io)

content = io.getvalue()
print(content)

結果

"{\"name\": \"Wenjie Ye\", \"age\": 75, \"nationality\": \"China\"}"

總結

  • dumps / dump: 將 Python 轉換 JSON,返回的 type 為 str
  • loads / load: 將 JSON 轉換為 Python,返回的 type 為 Dict
  • 如果要根據字元串轉化方法中使用帶有 s 的,要從文件進行轉化就不加 s

優雅的使用 json 模塊

格式化 JSON 結果

不難發現,dumps 獲得的 str 結果並不是很好看,如果數據量大,或者數據結構複雜,沒有縮進和換行將使得 JSON 數據變得不容易閱讀。

所以 dumps() 方法提供了一些令結果更易讀的參數,這些參數在實際工作中也常常用到。

  • indent 參數:定義縮進數
python_dict = {
    'name': 'Wenjie Ye',
    'age': 75,
    'nationality': 'China',
    'occupations': ['Astrophysicist', 'University Professor'],
}

res = json.dumps(python_dict, indent=4)
print(res)

轉換的結果將按照 indent 縮進 4 格

{
    "name": "Wenjie Ye",
    "age": 75,
    "nationality": "China",
    "occupations": [
        "Astrophysicist",
        "University Professor"
    ]
}
  • separators 參數:更改預設分隔符

我們先來看看官方對其的定義:

If specified, separators should be an (item_separator, key_separator) tuple. The default is (', ', ': ') if indent is None and (',', ': ') otherwise. To get the most compact JSON representation, you should specify (',', ':') to eliminate whitespace.

  1. 類型應該傳入元組
  2. 其預設值是 (',', ': ')

元組的第一個分隔符為 key-value 之間的分隔,預設是逗號;第二個分隔符為 key 與 value 之間的分隔,預設是冒號。

我們可以更改分隔符的樣式:

res = json.dumps(python_dict, indent=4, separators=(". ", " = "))
print(res)

結果

{
    "name" = "Wenjie Ye". 
    "age" = 75. 
    "nationality" = "China". 
    "occupations" = [
        "Astrophysicist". 
        "University Professor"
    ]
}
  • sort_keys 參數: 對結果排序,布爾值
res = json.dumps(python_dict, indent=4, sort_keys=True)
print(res)

結果

{
    "age": 75,
    "name": "Wenjie Ye",
    "nationality": "China",
    "occupations": [
        "Astrophysicist",
        "University Professor"
    ]
}

json 模塊不支持轉換 bytes 類型

需要註意的是對於 bytes,json 模塊並不能順利轉換,要先將bytes轉換為str格式

b = b"bytes content"
# j = json.dumps(b)  # TypeError: Object of type bytes is not JSON serializable

j = json.dumps(b.decode())
print(j)  # "bytes content"

直接轉換 bytes 的結果是 TypeError,會告知你 bytes 不可JSON序列化, 只有轉換為 str 類型後才可以序列化。

json 文件讀寫

import json
python_dict = {"k1": "v1", "k2": 123, "k3": ["I'm", "NutCat"]}

# write
f_json = json.dump(python_dict, open("E:\\temp\\temp.json", "w"))
print(f_json)  # return None

# read
import os
os.chdir("E:\\temp\\")
# check temp.json exist
print(os.listdir())
# read json file
print(json.load(open("E:\\temp\\temp.json")))

結果

None
['temp.json']
{'k1': 'v1', 'k2': 123, 'k3': ["I'm", 'NutCat']}

當然,我還是推薦使用 with open 的方式來寫入數據

with open("E:\\temp\\temp.json", "w") as f:
	json.dump(python_dict, f)

利用 pandas 讀取 JSON

import pandas as pd

df = pd.read_json("E:\\temp\\temp.json")
print(df.head())

如果你想利用 DataFrame 的特性來處理數據,你還可以使用 Pandas 庫來讀取數據,它讀取我們之前生成的 temp.json 的結果如下:

   k1   k2      k3
0  v1  123     I'm
1  v1  123  NutCat

毫無疑問,我們可以用上強大的 pandas 的特性來處理 json 數據了。

但是,實際工作中,json 文件的內容可不像我們 temp.json 文件一樣簡單到朴實無華,我們需要知道怎麼處理嵌套的 JSON 數據

有如下的 JSON 數據,保存在 json_test.json 文件中,members 欄位中保存有 object 類型的數據,這些嵌套的數據在讀取到 DataFrame 後會被轉換為字典。

{
    "system_id": 707077,
    "system_name": "account_system",
    "formed": 2022,
    "update_time": "2022-06-06",
    "members": [
        {
            "username": "Kamishiro Rize",
            "age": "22",
            "account": "12345678",
            "nationality": "Japan",
            "active": false
        },
        {
            "username": "Wenjie Ye",
            "age": "75",
            "account": "87654321",
            "nationality": "China",
            "active": true
        }
    ]
}

現在,我們按照以前的方法讀取它

import os
import pandas as pd

df = pd.read_json("json_test.json")
print(df)

讀取的結果如下

   system_id     system_name  formed update_time  \
0     707077  account_system    2022  2022-06-06   
1     707077  account_system    2022  2022-06-06   

                                             members  
0  {'username': 'Kamishiro Rize', 'age': '22', 'a...  
1  {'username': 'Wenjie Ye', 'age': '75', 'accoun...  

其中的 members 欄位是保存了一整個字典的,那麼應該如何把他拆分開呢?其實,這一步已經和 json 無關了,是依靠 pandas 來處理這些嵌套的數據了。

我們可以在 members 列上,使用 apply 方法

df["members"].apply(pd.Series)

返回了 DataFrame 結果

	username	age	account	nationality	active
0	Kamishiro Rize	22	12345678	Japan	False
1	Wenjie Ye	75	87654321	China	True

但是,使用 apply 方法後生成了一個新 DataFrame,那我們還得想個辦法給拼回去原來的 DataFrame。

其實,pandas 庫中還有一個函數 json_normalize()

import json
import pandas as pd
with open("json_test.json") as f:
    acct_info = json.load(f)
res = pd.json_normalize(
    acct_info,
    record_path=["members"],
    meta=["system_id", "system_name", "formed", "update_time"],
)
print(res)

它會將 members 拆分並拼接到 DataFrame 結果中

         username age   account nationality  active system_id     system_name  \
0  Kamishiro Rize  22  12345678       Japan   False    707077  account_system   
1       Wenjie Ye  75  87654321       China    True    707077  account_system   

  formed update_time  
0   2022  2022-06-06  
1   2022  2022-06-06  
  • record_path: 需要拆分的列的名字
  • meta: 其他要加入到結果的列名的list,其順序就是輸出的順序
  • meta_prefix: 這個參數可以給 meta 的欄位名前加個首碼

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前言 WPF 的 ComboBox 控制項等綁定 enum 值很繁瑣,很讓人頭疼,網上也有提供了一些方法,基本是使用 ObjectDataProvider 方式和 MarkupExtension 方式, 有沒有辦法綁定值為 enum 類型就自動載入所有枚舉值選項,下麵記錄一種方法; 實現方式 主要通過 ...
  • CORS跨域訪問問題往往出現在“瀏覽器客戶端”通過ajax調用“服務端API”的時候。而且若是深究原理,還會發現跨域問題其實還分為【簡單跨域】與【複雜跨域】這兩種情況。 網上對解決跨域限制有很多說明文章,但絕大多數要麼解決的不完善(比如,沒有區分【簡單跨域】與【複雜跨域】),要麼就是解決方案過於複雜 ...
  • 一. 背景 我們在日常開發中,可能你會遇到這樣的需求:"每個月的3號給用戶發信息,提醒用戶XXX "、"每天的0點需要統計前一天的考勤記錄"、"每個月的1號計算上個月的庫存情況"、"定時初始化數據供其它業務使用"、"每隔2分鐘輪詢查資料庫看某業務是否被審核通過,並提示用戶" 等等。 以上需求在開發中 ...
  • 一、crond任務調度 概述: 使用crontab 指令進行定時任務的設置,任務調度是指系統在某個時間端執行的特定任務或程式,例如:病毒掃描,資料庫備份等 基本語法: crontab 【選項】 常用選項: -e編輯crontab定時任務 -l查詢crontab任務 -r刪除當前用戶所有的cronta ...
  • MySQL基本知識 1.資料庫 1.1.創建資料庫 語法: CREATE DATABASE [IF NOT EXISTS] db_name [create_specification[,create_specification]...] create_specification: [DEFAULT] ...
  • #背景 webpack構建過程中的hooks都有什麼呢?除了在網上看一些文章,還可以通過更直接的辦法,結合官方文檔快速讓你進入webpack的hook世界 寫一個入口文件 //index.js const webpack = require("webpack"); const path = requ ...
  • 一、Spring Cloud Stream 在實際的企業開發中,消息中間件是至關重要的組件之一。消息中間件主要解決應用解耦,非同步消息,流量削鋒等問題,實現高性能,高可用,可伸縮和最終一致性架構。不同的中間件其實現方式,內部結構是不一樣的。如常見的RabbitMQ和Kafka,由於這兩個消息中間件的架 ...
  • 技術傳播的價值,不僅僅體現在通過商業化產品和開源項目來縮短我們構建應用的路徑,加速業務的上線速率,也體現在優秀工程師在工作效率提升、產品性能優化和用戶體驗改善等經驗方面的分享,以提高我們的專業能力。本文作者阿裡巴巴技術專家三畫,分享了自己和團隊在畫好架構圖方面的理念和經驗,首發於阿裡內部技術分享平臺... ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...