Python學習:標準庫之數據持久存儲與交換

来源:https://www.cnblogs.com/xxpythonxx/archive/2022/10/17/16800637.html
-Advertisement-
Play Games

擴展:Gc日誌分析工具 GC日誌分析工具-GCEasy GC日誌分析神器-GCEasy詳解 1 自動記憶體管理 Java技術體系的自動記憶體管理,最根本的目標是自動化地解決兩個問題:分配與回收 自動給對象分配記憶體 自動回收分配給對象的記憶體 Java的對象記憶體分配的一般規則: 一般情況下,給對象分配堆記憶體 ...


持久存儲數據以便長期使用包括兩個方面:在對象的記憶體中表示和存儲格式之間來迴轉換數據,以及處理轉換後數據的存儲區。

標準庫包含很多模塊可以處理不同情況下的這兩個方面

有兩個模塊可以將對象轉換為一種可傳輸或存儲的格式(這個過程被稱為序列化)。最常用的是使用pickle持久存儲,因為它可以與其他一些具體存儲序列化數據的模塊集成,如shelve。
而對基於web的應用,json更為常用,因為它能更好地與現有的web服務存儲工具集成

一旦將記憶體中對象轉化為一種可保存的格式,那麼下一步就是確定如何存儲這個數據。如果數據不需要以某種方式索引,則按照順序先後寫入序列化對象即可。
Python包括一組模塊可以在一個簡單的資料庫中存儲鍵值對,需要索引查找時會使用某種DBM變形格式

要利用DBM的格式,最直接的方式是使用shelve。可以打開shelve文件,通過一個類似字典的API來訪問。

保存到資料庫的對象會自動"腌制"並保存,而無須調用者做任何額外的工作

不過shelve有一個缺點,使用預設介面時,沒有辦法預測將使用哪一個DBM格式,因為shelve會根據創建資料庫的系統上有哪些可用的庫來選擇一個格式。

如果應用不需要在配置有不同的庫的主機之間共用資料庫文件,那麼選擇哪一種並不重要。不過,如果必須保證可移植性,則可以使用這個模塊中的某個類來確保選擇一個特定的格式

對於web應用,由於這些應用已經在處理json格式的數據,因此可以使用json和dbm提供另一種持久存儲機制。

直接使用dbm會比使用shelve多做一些工作,因為DBM資料庫鍵和值都必須是字元串,,而且在資料庫中訪問值時不會自動創建對象。

還有xml,csv等格式

一、pickle:對象序列化

import pickle
'''
pickle模塊實現了一個演算法,可以將一個Python對象轉換為一系列位元組。這個過程被稱為序列化。
可以傳輸或存儲表示對象的位元組流,然後再重新構造來創建有相同性質的新對象。
'''
 
# 註意:
'''
pickle的文檔明確指出它不提供任何安全保證。實際上,對數據解除"腌制"(反序列化)可以執行任意的代碼。
使用pickle模塊完成進程間通信或數據存儲時要當心,另外不要相信未經過安全驗證的數據。
'''

1.編碼和解碼字元串中的數據

import pickle
'''
可以使用dumps將Python中對象進行序列化,也可以使用loads將序列化的對象轉換成Python中的對象
'''
d = {"a": 1, "b": 2}
 
data_string = pickle.dumps(d)
print(data_string)
 
# 傳入序列化對象
data = pickle.loads(data_string)  # b'\x80\x03}q\x00(X\x01\x00\x00\x00aq\x01K\x01X\x01\x00\x00\x00bq\x02K\x02u.'
print(data["a"] + data["b"])  # 3
'''
dumps(python對象) --> 序列化對象
loads(序列化對象) --> Python對象
 
預設地,pickle將以一種二進位格式寫入,在Python3程式之間共用時這種相容性最好
 
數據序列化後,可以寫到一個文件、套接字、管道或者其它位置,之後可以讀取這個文件,將文件進行反序列化,以便用同樣的值構造一個新對象
'''
 
 
# 註意:可以序列化Python中的大部分常見對象
class A:
    a = "aaa"
 
 
a = A()
obj = pickle.dumps(a)
# 反序列化之後的對象和原來的對象是一樣的,但是不是同一個對象
print(pickle.loads(obj) is a)  # False
print(pickle.loads(obj).a)  # aaa
 
 
# 除此之外,pickle還可以將序列化dump到一個文件里,然後從文件裡面load
'''
函數分別是dump和load
pickle.dump(python對象, f)
pickle.load(f)
 
和不涉及文件的dumps、loads類似
pickle.dumps(Python對象)  -->會有返回值,obj
pickle.loads(obj)
 
操作類似,不再演示
'''

  

2.處理流

import pickle
import io
'''
除了dumps、loads,pickle還提供了一些便利的函數來處理類似文件的流。
可以向一個流寫多個對象,然後從流讀取這些對象,而無須事先知道要寫多個對象或者這些對象有多大。
'''
d = {"a": 1, "b": 2}
l = [1, 2, 3]
s = {1, 1, 3}
data = [d, l, s]
 
out_s = io.BytesIO()
for o in data:
    pickle.dump(o, out_s)
    out_s.flush()
 
in_s = io.BytesIO(out_s.getvalue())
 
while True:
    try:
        o = pickle.load(in_s)
        print(o)
    except EOFError:
        break
'''
{'a': 1, 'b': 2}
[1, 2, 3]
{1, 3}
'''

3.重構對象的問題

import pickle
import sys
'''
處理定製類時,腌制的類必須出現在讀取pickle的進程所在的命名空間里。
只會腌制這個實例的數據,而不是類定義。類名用於查找構造函數,以便在解除腌制時創建新對象。
 
比如我在A.py中定義了一個類Foo,然後將其實例對象序列化。
我在B.py中將其反序列化,是會報錯的,因為根本就有沒有Foo這個類,如果from A import Foo之後,那麼便不會報錯。
說明腌制的類必須出現在讀取pickle的進程所在的命名空間里
'''

4.不可腌制的對象

import pickle
'''
並不是所有對象都是可腌制的。套接字、文件句柄、資料庫連接以及其他運行時狀態依賴於操作系統或其他進程的對象,其可能無法用一種有意義的方式保存。
如果對象包含不可腌制的屬性,則可以定義__getstate__和__setstate__來返回所腌制實例的狀態的一個子集
 
__getstate__方法必須返回一個對象,其中包含所腌制對象的內部狀態。表示狀態的一種便利方式是使用字典,不過值可以是任意的可腌制對象。
保存狀態,然後在從pickle載入對象時將所保存的狀態傳入__setstate__
'''
 
 
class A:
 
    def __init__(self):
        self.name = "mashiro"
        self.age = 16
 
    def __getstate__(self):
        print("__getstate__")
        return {"name": self.name, "age": self.age}
 
    def __setstate__(self, state):
        print("__setstate__")
        print(state)
 
 
a = A()
# 當dumps的時候,會觸發__getstate__方法,要有一個返回值
dump_obj = pickle.dumps(a)  # __getstate__
# 當loads的時候,會觸發__setstate__方法,__getstate__方法的返回值會傳給state
load_obj = pickle.loads(dump_obj)
'''
__setstate__
{'name': 'mashiro', 'age': 16}
'''
  
# 而且pickle協議會自動處理對象之間的迴圈引用,所以複雜數據結構不需要任何特殊的處理。

5.dbm:Unix-鍵值資料庫

'''
在一些小型程式中,不需要關係型資料庫時,可以方便的用持久字典來存儲鍵值對,和python中的字典非常類似。而且dbm的鍵和值都必須是str或者bytes類型
'''
import dbm
  
'''
這裡第一個參數直接傳入文件名,第二個參數表示模式
常見的模式:
r:可讀,預設就是這個模式
w:可讀可寫
但是r、w,都必須確保文件已經存在,否則報錯。
  
c:可讀可寫,文件不存在時會創建
n:可讀可寫,但總是會創建一個新的文件,也就是說如果創建同名文件,那麼之前的內容都會被清空,也就是起不到追加的效果。
  
因此我們平常的模式一般都會選擇c
  
  
第三個參數是許可權,這個在windows下基本不用,是一組用八進位表示的數字,預設是0o666,都是可讀可寫不可執行
'''
db = dbm.open("store", "c")
  
# 打開文件之後,就可以存儲值了
# 註意key和value都必須是str或者bytes類型
db["name"] = "satori"
db["age"] = "16"
db["gender"] = "f"
db["anime"] = "東方地靈殿"
  
# 關閉文件,將內容寫到磁碟上
db.close()
  
  
################################################################
# 打開文件
db = dbm.open("store", "c")
print(db.keys())  # [b'name', b'age', b'gender', b'anime']
for key in db.keys():
    print(f"key={key}, value={db[key]}")
    '''
    key=b'name', value=b'satori'
    key=b'age', value=b'16'
    key=b'gender', value=b'f'
    key=b'anime', value=b'\xe4\xb8\x9c\xe6\x96\xb9\xe5\x9c\xb0\xe7\x81\xb5\xe6\xae\xbf'
    '''

在這裡插入圖片描述
會多出這麼三個文件

6.shelve:對象的持久存儲

''' 
shelve和dbm比較類似,但是功能遠比dbm強大,因為它可以持久化任意對象
'''
import shelve
  
# 參數flag預設是c,因此我們只需要傳入文件名就可以了,這個是自動追加在後面的
# 也就是說我寫完之後,再次打開繼續寫的話,只會追加不會清空
sh = shelve.open("shelve")
  
sh["dict"] = {"name": "satori", "age": 16}
sh["list"] = [1, 2, 3, 4]
sh["set"] = {1, 2, 3, 2}
  
# 寫完之後關閉文件,刷到記憶體裡面
# 關閉之後就無法操作了
sh.close()
  
  
# 下麵我們就可以操作數據了,下麵的代碼即便寫在另一個py文件裡面也是可以的
sh2 = shelve.open("shelve")
print(sh2["dict"], sh2["dict"].keys())  # {'name': 'satori', 'age': 16} dict_keys(['name', 'age'])
print(sh2["list"], sum(sh2["list"]))  # [1, 2, 3, 4] 10
print(sh2["set"])  # {1, 2, 3}
sh2.close()
  
  
# 可以看到,拿出來的就是原生的對象,可以直接用來進行操作的。那我們看看自己定義的類可不可以呢?
sh3 = shelve.open("shelve")
  
  
class A:
    def __init__(self, name, age):
        self.name = name
        self.age = age
  
    @property
    def print_info(self):
        return f"my name is {self.name}, age is {self.age}"
  
  
a = A("satori", 16)
# 將這個類和類的一個實例對象存儲進去
sh3["A"] = A
sh3["a"] = a
sh3.close()
  
  
######################################
sh4 = shelve.open("shelve")
  
# sh4["A"]拿到A這個類,傳入參數,調用方法
print(sh4["A"]("mashiro", "17").print_info)  # my name is mashiro, age is 17
  
# sh4["a"]拿到a這個實例對象,直接調用方法
print(sh4["a"].print_info)  # my name is satori, age is 16
  
# 我們發現依舊是可以的,說明瞭shelve這個模塊真的很強大

我們再來看一個例子

'''
學習中遇到問題沒人解答?小編創建了一個Python學習交流群:711312441
尋找有志同道合的小伙伴,互幫互助,群里還有不錯的視頻學習教程和PDF電子書!
'''
import shelve
  
sh = shelve.open("shelve")
sh["list"] = [1, 2, 3]
sh["str"] = "mashiro"
sh.close()
  
##############################
sh = shelve.open("shelve")
sh["list"].append("xxxx")
sh["str"] = "satori"
sh.close()
  
#######################
sh = shelve.open("shelve")
print(sh["list"])  # [1, 2, 3]
print(sh["str"])  # satori

分析結果,第一次打開文件我們創建兩個鍵值對

sh["list"] = [1, 2, 3]
sh["str"] = "mashiro"

第二次打開文件,修改了兩個鍵的值
第三次打開文件,列印。但是我們發現sh["str"]改變了,但是sh["list"]沒有改變,這是為什麼?
首先sh["str"] = "satori"很好理解,但是為什麼sh["list"]沒有變?
因為=,我們是直接賦值,將這一塊記憶體裡面的值給換掉,而sh["list"]我們是做append操作,這隻是在原來的基礎上進行修改shelve預設情況下是不會記錄,持久化對象的修改的,除非你是創建新的對象,或者是把原來的對象給換掉,如果是在原來的基礎上(可變類型),比如列表、字典,進行添加或者刪除操作,這些是不會被記錄的
所以:sh["list"]=[1, 2, 3] sh["list"].append("xxxx") --->sh["list"]仍是[1, 2, 3]不會是[1, 2, 3, "xxx"]
因為shelve沒有記錄對象自身的修改,如果我想得到期望的結果,一種方法是把對象整體換掉sh["list"] = [1, 2, 3, "xxxx"],這樣等於是重新賦值,是可行的。但是有時候我們不知道列表裡面內容,或者列表裡面的內容是一些函數、類什麼的、不好寫的話,該咋辦呢?

其實我們在打開文件的時候,還可以加上一個參數,叫做writeback

import shelve
  
sh = shelve.open("shelve")
sh["list"] = [1, 2, 3]
sh["str"] = "mashiro"
sh.close()
  
##############################
# 如果我們需要進行修改,那麼加上一個writeback=True就可以了,從名字也能看出來
# 這是會將修改的內容從新寫回去
sh = shelve.open("shelve", writeback=True)
sh["list"].append("xxxx")
sh["str"] = "satori"
sh.close()
  
#######################
sh = shelve.open("shelve")
print(sh["list"])  # [1, 2, 3, 'xxxx']
print(sh["str"])  # satori
'''
可以看到都發生改變了,但是這個參數有缺陷,就是會有額外的記憶體消耗。當我們加上writeback=True的時候shelve會將我們讀取的對象都放到一個記憶體緩存當中。
比如說我們獲取了20持久化的對象,但是我們只修改了一個,剩餘的19個只是查看並沒有做修改,但當我們sh.close()的時候,會將這20個對象都寫回去
因為shelve不知道你會對哪個對象進行修改,於是不管你是查看還是修改,都會放到緩存當中,然後再一次性都寫回去。
這樣會造成兩點:
1.對象放到記憶體緩存當中,等於是重新拷貝了一份,因為我們讀取文件已經到記憶體當中了,而shelve又把我們使用的對象放到記憶體的另一片空間中
2.寫入數據,我們明明只修改了一份數據,但是它把20份都重新寫回去了,這樣會造成性能上的問題,導致效率會降低。
因此加不加這個參數,由具體情況決定
'''

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前置配置 # META-INF/spring.factories文件配置 # ApplicationContextInitializer org.springframework.context.ApplicationContextInitializer=com.test.springbootdemo ...
  • 科技報告語料處理 接著上次爬取到的科技報告數據進行處理【參考 https://www.cnblogs.com/rainbow-1/p/16725576.html】 為了建立科技報告的分類模型,現將其關鍵字和中圖分類名稱進行彙總,作為原始語料庫。 先前爬取的數據,存在數據格式不統一不規範的問題,比如分 ...
  • 現狀 生產系統CPU占用過高,並且進行了報警 排查方法 執行top命令,查看是那個進程導致的,可以確定是pid為22168的java應用導致的 執行top -Hp命令,查看這個進程的那個線程導致cpu過高,如下圖,可以看到是22749線程導致的 top -Hp 22168 由於jstack裡面的線程 ...
  • Vector0 向量賦值。 module top_module ( input wire [2:0] vec, output wire [2:0] outv, output wire o2, output wire o1, output wire o0 ); // Module body start ...
  • 序言 各位好啊,我是會編程的蝸牛,JetBrains 日前宣佈其打造的下一代 IDE Fleet 正式推出公共預覽版,現已開放下載。作為java開發者,對於JetBrains開發的全家桶可以說是印象深刻,其中的IDEA更是號稱java開發領域的絕對王者。 不過隨著微軟VSCode的日漸崛起,想必Je ...
  • 本文講解了SVM的原理,以及代碼中用到的公式手寫的推導的過程,以及對應的SVM簡單代碼的實現及詳解,還有加入核函數解決非線性函數的的方法及代碼的詳解 ...
  • JDBC和連接池05 11.BasicDAO 先來分析一個問題 前面我們使用了Apache-DBUtils和Druid簡化了JDBC開發,但仍存在以下不足: SQL語句是固定的,不能通過參數傳入,通用性不好,需要進行改進,來更方便執行增刪改查 對於select操作,如果有返回值,返回類型還不確定,應 ...
  • 首先我們要知道任何關於函數調用簽名的問題,都和inspect模塊有著關係 這個知識點涉及到兩個類: Signature、 Parameter創建一個簽名對象,這是個重點 1 from inspect import Signature, Parameter 2 3 params = [Paramete ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...