一、引言:什麼是 JSON JSON (Java Script Object Notation) 是一種很常用的數據格式,它常常用在 web 應用程式中。它可以表示結構化的數據。 下麵是常見的 JSON 文件結構 { "name": "Kamishiro Rize", "age": "22", "o ...
一、引言:什麼是 JSON
JSON (Java Script Object Notation) 是一種很常用的數據格式,它常常用在 web 應用程式中。它可以表示結構化的數據。
下麵是常見的 JSON 文件結構
{
"name": "Kamishiro Rize",
"age": "22",
"occupation": "firefighter",
"traits": [
"Eagle Eyed",
"Fast Healer",
"High Thirst",
"Hearty Appetite"
]
}
它看起來與 Python 的 字典非常類似,也是由 key - value 結對組成,其中key是字元串形式,value是字元串、數字、布爾值、數組、對象或null。key/value間均使用逗號進行區分。
在 Python 中,JSON 作為字元串存在
json_str = '{"name": "Kamishiro Rize", "age": "22", "profession": "firefighter", "traits": ["Eagle Eyed", "Fast Healer", "High Thirst", "Hearty Appetite"]}'
JSON 與 Python 的數據結構和對應關係如下:
JSON | PYTHON |
---|---|
object | dict |
array | list, tuple |
string | str, unicode |
number | int, long, float |
true / false | True / False |
null | None |
要使用 JSON ,字元串或者包含 JSON 對象的文件,都可以使用 Python 的內置包 json
模塊。
import json
二、示例:在 Python 中解析 JSON
JSON 模組的常用方法
load / loads: 把 JSON 轉換為 Python
- loads()
# some json
somebody_info = '{"name": "Wenjie Ye", "age": 75, "nationality": "China"}'
# parse to dict
j = json.loads(somebody_info)
# show result
print(j["name"])
print(j["age"])
print(type(j))
結果
Wenjie Ye
75
<class 'dict'>
將 JSON 轉換為 Python 後,其結果的類型為字典
- load()
# some json
somebody_info = '{"name": "Wenjie Ye", "age": 75, "nationality": "China"}'
# use json.load
# j = json.load(somebody_info) # AttributeError: 'str' object has no attribute 'read'
from io import StringIO
io = StringIO(somebody_info)
j = json.load(io)
print(type(j))
print(j)
load() 是從json格式的文件中讀取數據並轉換為python的類型。適用於文件讀取,所以我們按 loads() 的例子來操作是會出錯的,可以使用 StringIO 轉換一下。load()
的結果也是返回字典
<class 'dict'>
{'name': 'Wenjie Ye', 'age': 75, 'nationality': 'China'}
dump / dumps: 把 Python 轉換為 JSON
- dumps()
python_dict = {
'name': 'Wenjie Ye',
'age': 75,
'nationality': 'China',
}
# convert to JSON
j = json.dumps(python_dict)
# result
print(j)
print(type(j))
轉換後的結果返回字元串
{"name": "Wenjie Ye", "age": 75, "nationality": "China"}
<class 'str'>
- dump()
有了 load()
的經驗,你應該知道,不帶 s 的 dump 方法是用來將python數據類型轉換並保存到json格式的文件內的。
from io import StringIO
io = StringIO()
json.dump('{"name": "Wenjie Ye", "age": 75, "nationality": "China"}', io)
content = io.getvalue()
print(content)
結果
"{\"name\": \"Wenjie Ye\", \"age\": 75, \"nationality\": \"China\"}"
總結
- dumps / dump: 將 Python 轉換 JSON,返回的 type 為 str
- loads / load: 將 JSON 轉換為 Python,返回的 type 為 Dict
- 如果要根據字元串轉化方法中使用帶有
s
的,要從文件進行轉化就不加s
優雅的使用 json 模塊
格式化 JSON 結果
不難發現,dumps 獲得的 str 結果並不是很好看,如果數據量大,或者數據結構複雜,沒有縮進和換行將使得 JSON 數據變得不容易閱讀。
所以 dumps() 方法提供了一些令結果更易讀的參數,這些參數在實際工作中也常常用到。
indent
參數:定義縮進數
python_dict = {
'name': 'Wenjie Ye',
'age': 75,
'nationality': 'China',
'occupations': ['Astrophysicist', 'University Professor'],
}
res = json.dumps(python_dict, indent=4)
print(res)
轉換的結果將按照 indent 縮進 4 格
{
"name": "Wenjie Ye",
"age": 75,
"nationality": "China",
"occupations": [
"Astrophysicist",
"University Professor"
]
}
separators
參數:更改預設分隔符
我們先來看看官方對其的定義:
If specified,
separators
should be an(item_separator, key_separator)
tuple. The default is(', ', ': ')
if indent isNone
and(',', ': ')
otherwise. To get the most compact JSON representation, you should specify(',', ':')
to eliminate whitespace.
- 類型應該傳入元組
- 其預設值是
(',', ': ')
元組的第一個分隔符為 key-value 之間的分隔,預設是逗號;第二個分隔符為 key 與 value 之間的分隔,預設是冒號。
我們可以更改分隔符的樣式:
res = json.dumps(python_dict, indent=4, separators=(". ", " = "))
print(res)
結果
{
"name" = "Wenjie Ye".
"age" = 75.
"nationality" = "China".
"occupations" = [
"Astrophysicist".
"University Professor"
]
}
sort_keys
參數: 對結果排序,布爾值
res = json.dumps(python_dict, indent=4, sort_keys=True)
print(res)
結果
{
"age": 75,
"name": "Wenjie Ye",
"nationality": "China",
"occupations": [
"Astrophysicist",
"University Professor"
]
}
json 模塊不支持轉換 bytes 類型
需要註意的是對於 bytes,json 模塊並不能順利轉換,要先將bytes轉換為str格式。
b = b"bytes content"
# j = json.dumps(b) # TypeError: Object of type bytes is not JSON serializable
j = json.dumps(b.decode())
print(j) # "bytes content"
直接轉換 bytes 的結果是 TypeError,會告知你 bytes 不可JSON序列化, 只有轉換為 str 類型後才可以序列化。
json 文件讀寫
import json
python_dict = {"k1": "v1", "k2": 123, "k3": ["I'm", "NutCat"]}
# write
f_json = json.dump(python_dict, open("E:\\temp\\temp.json", "w"))
print(f_json) # return None
# read
import os
os.chdir("E:\\temp\\")
# check temp.json exist
print(os.listdir())
# read json file
print(json.load(open("E:\\temp\\temp.json")))
結果
None
['temp.json']
{'k1': 'v1', 'k2': 123, 'k3': ["I'm", 'NutCat']}
當然,我還是推薦使用 with open 的方式來寫入數據
with open("E:\\temp\\temp.json", "w") as f:
json.dump(python_dict, f)
利用 pandas 讀取 JSON
import pandas as pd
df = pd.read_json("E:\\temp\\temp.json")
print(df.head())
如果你想利用 DataFrame 的特性來處理數據,你還可以使用 Pandas 庫來讀取數據,它讀取我們之前生成的 temp.json 的結果如下:
k1 k2 k3
0 v1 123 I'm
1 v1 123 NutCat
毫無疑問,我們可以用上強大的 pandas 的特性來處理 json 數據了。
但是,實際工作中,json 文件的內容可不像我們 temp.json 文件一樣簡單到朴實無華,我們需要知道怎麼處理嵌套的 JSON 數據
有如下的 JSON 數據,保存在 json_test.json 文件中,members 欄位中保存有 object 類型的數據,這些嵌套的數據在讀取到 DataFrame 後會被轉換為字典。
{
"system_id": 707077,
"system_name": "account_system",
"formed": 2022,
"update_time": "2022-06-06",
"members": [
{
"username": "Kamishiro Rize",
"age": "22",
"account": "12345678",
"nationality": "Japan",
"active": false
},
{
"username": "Wenjie Ye",
"age": "75",
"account": "87654321",
"nationality": "China",
"active": true
}
]
}
現在,我們按照以前的方法讀取它
import os
import pandas as pd
df = pd.read_json("json_test.json")
print(df)
讀取的結果如下
system_id system_name formed update_time \
0 707077 account_system 2022 2022-06-06
1 707077 account_system 2022 2022-06-06
members
0 {'username': 'Kamishiro Rize', 'age': '22', 'a...
1 {'username': 'Wenjie Ye', 'age': '75', 'accoun...
其中的 members 欄位是保存了一整個字典的,那麼應該如何把他拆分開呢?其實,這一步已經和 json 無關了,是依靠 pandas 來處理這些嵌套的數據了。
我們可以在 members 列上,使用 apply
方法
df["members"].apply(pd.Series)
返回了 DataFrame 結果
username age account nationality active
0 Kamishiro Rize 22 12345678 Japan False
1 Wenjie Ye 75 87654321 China True
但是,使用 apply
方法後生成了一個新 DataFrame,那我們還得想個辦法給拼回去原來的 DataFrame。
其實,pandas 庫中還有一個函數 json_normalize()
import json
import pandas as pd
with open("json_test.json") as f:
acct_info = json.load(f)
res = pd.json_normalize(
acct_info,
record_path=["members"],
meta=["system_id", "system_name", "formed", "update_time"],
)
print(res)
它會將 members 拆分並拼接到 DataFrame 結果中
username age account nationality active system_id system_name \
0 Kamishiro Rize 22 12345678 Japan False 707077 account_system
1 Wenjie Ye 75 87654321 China True 707077 account_system
formed update_time
0 2022 2022-06-06
1 2022 2022-06-06
record_path
: 需要拆分的列的名字meta
: 其他要加入到結果的列名的list,其順序就是輸出的順序meta_prefix
: 這個參數可以給 meta 的欄位名前加個首碼