EventStore文件存儲設計

来源:https://www.cnblogs.com/netfocus/archive/2019/05/14/10861152.html
-Advertisement-
Play Games

背景 ENode是一個CQRS+Event Sourcing架構的開發框架,Event Sourcing需要持久化事件,事件可以持久化在DB,但是DB由於面向的是CRUD場景,是針對數據會不斷修改或刪除的場景,所以內部實現會比較複雜,性能也相對比較低。而Event Store實際上對數據只有新增和查 ...


背景

ENode是一個CQRS+Event Sourcing架構的開發框架,Event Sourcing需要持久化事件,事件可以持久化在DB,但是DB由於面向的是CRUD場景,是針對數據會不斷修改或刪除的場景,所以內部實現會比較複雜,性能也相對比較低。而Event Store實際上對數據只有新增和查詢的需求,所以我想為Event Sourcing的場景針對性的實現一個Event Store。看了一下業界的一些實現,感覺都沒有達到我的期望,所以想自己動手實現一個。下麵是我構思的一個Event Store的單機版應該要具備的能力以及對應的設計方案,分享出來和大家討論。

一、需求概述

  • 存儲聚合根的事件數據
  • 支持事件的版本併發控制,新事件的版本號必須是當前版本號+1
  • 支持命令重覆判斷,即不可以處理重覆命令產生的事件
  • 支持按聚合根ID查詢該聚合根的所有事件
  • 支持按聚合根ID+事件版本號查詢指定的事件
  • 支持按命令ID查詢該命令對應的事件數據
  • 高性能,寫入要儘量快,查詢要儘量快

二、事件數據格式

{
  "aggregateRootId": "",     //聚合根ID
  "aggregateRootType": "",   //聚合根類型
  "eventVersion": "",        //事件版本號
  "eventTime": "",           //事件發生時間
  "eventData": "",           //事件數據,JSON格式
  "commandId": "",           //產生該事件的命令ID
  "commandTime": ""          //產生該事件的命令產生時間
}

三、存儲設計

1、核心記憶體存儲設計

  • 遵循記憶體只存儲索引數據的原則,儘量充分利用記憶體;
  • aggregateLatestVersionDict,存儲每個聚合根的最大事件版本號
    • key:aggregateRootId,聚合根ID
    • value:
      • eventVersion,當前聚合根的最新事件的版本號,也即當前聚合根的版本號
      • eventTime,事件產生時間
      • eventPosition,事件在事件數據文件中的位置
  • commandIdDict,存儲命令索引
    • key:commandId,命令ID
    • value:
      • commandTime,命令產生時間
      • eventPosition,命令對應的事件在事件數據文件中的位置

2、物理存儲的數據

  • 事件數據:eventData,單條數據的結構:
{
  "aggregateRootId": "",     //聚合根ID
  "aggregateRootType": "",   //聚合根類型
  "eventVersion": "",        //事件版本號
  "eventTime": "",           //事件發生時間
  "eventData": "",           //事件數據,JSON格式
  "commandId": "",           //產生該事件的命令ID
  "commandTime": "",         //產生該事件的命令產生的事件
  "previousEventPosition": ""//前一個事件在事件文件中的位置
}
  • 事件索引:eventIndex,單條數據的結構:
{
  "aggregateRootId": "",     //聚合根ID
  "eventVersion": "",        //事件版本號
  "eventTime": "",           //事件產生時間
  "eventPosition": "",       //事件在事件數據文件中的位置
}
  • 命令索引:commandIndex,存儲內容:存儲所有命令的ID及其對應的事件所在文件的位置
{
  "commandId": "",        //聚合根ID
  "commandTime": "",      //命令產生時間
  "eventPosition": "",    //事件在事件數據文件中的位置
}

3、事件數據存儲

  • 同步順序寫eventDataChunk文件,一個文件大小為1GB,寫滿一個文件後寫入下一個文件;
  • 寫入每個事件時,同時寫入當前事件的前一個事件所在的文件位置,以便將來可以一次性將某個聚合根的所有事件從文件查找出來;

4、事件索引存儲

  • 非同步順序寫eventIndexChunk文件,一個文件大小為1GB,寫滿一個文件後寫入下一個文件;
  • 對於已經寫滿的不會再變化的文件的內容,使用後臺線程進行B+樹索引整理,索引的排序依據是聚合根ID+事件版本號;B+樹設計為3層,根節點包含1000個子節點,每個子節點再包含1000個子節點,這樣葉子節點共有100W個。每個葉子節點我們保存20個版本索引,則單個文件共可保存最多2000W個版本索引,10個文件為2億個版本索引;單機存儲2億個事件索引,應該可以滿足大部分應用場景了;3層,則查找任意一個節點,只需要3次IO訪問;
  • 由於是後臺線程對已經寫完的文件進行B+樹索引整理,B+樹是在記憶體建立,建立完成後,將最新的內容寫入新文件,原子替換老的eventIndexChunk文件;所以,這塊的邏輯處理應該不會對服務的主邏輯產生較大的影響;
  • 採用BloomFilter優化查詢性能,使用BloomFilter來快速判斷某個eventIndexChunk文件中是否包含某個聚合根ID,如果不在,則不用從B+樹去檢索該聚合根的版本號了;如果在,則取檢索;通過這個設計,當我們要獲取某個聚合根的最大版本號時,不需要對每個eventIndexChunk文件進行B+樹查詢,而是先通過BloomFilter快速判斷當前的eventIndexChunk文件是否包含該聚合根的信息,大大提升檢索效率;BloomFilter的二進位Bit數據占用記憶體小,可以在每個eventIndexChunk文件被掃描時,和文件頭的信息一起載入到記憶體;

5、命令索引存儲

  • 非同步順序寫commandIndexChunk文件,一個文件大小為1GB,寫滿一個文件後寫入下一個文件;
  • 同事件索引存儲,進行B+樹索引建立,索引的排序依據是命令ID;
  • 同事件索引存儲,採用BloomFilter優化查詢性能;

四、框架邏輯設計

1、查詢某個聚合根的最大版本號

  • EventStore啟動時,會載入所有的eventIndexChunk文件的元數據到記憶體,比如文件號、文件頭、BloomFilter等信息,但不真實載入文件內容,文件數不會太多,最多也就幾十個;
  • 根據聚合根ID+BloomFilter演算法,快速確定應該到哪個eventIndexChunk文件中去查找該聚合根的最新版本號,eventIndexChunk文件從新到舊遍歷,因為某個聚合根ID的最大版本號一定是在最新的eventIndexChunk文件中的;
  • 在找到的eventIndexChunk中使用B+樹查找演算法,找到對應的葉子節點;
  • 在找到的葉子節點,使用二分查找演算法(由於單個節點的聚合根ID不多,順序查找即可),找到指定聚合根的最新版本號;

2、查詢某個聚合根的所有事件

  • 先通過上面的演算法找出該聚合根的最大版本號的事件在事件數據文件中的位置;
  • 然後從該位置獲取事件完整數據;
  • 再根據事件數據中記錄的上一個事件在事件數據文件中的位置,查找上一個事件的數據;
  • 以此類推,直到找到該聚合根的第一個事件的數據;

3、查詢某個命令對應的事件數據

  • 先嘗試從記憶體查詢該命令的索引信息,如果存在,則直接獲取該命令對應的事件在事件數據文件中的位置,即eventPosition;如果不存在,則嘗試從命令的索引文件中查找,結合BloomFilter和B+樹查找演算法進行查找;
  • 如果找到了eventPosition,則根據eventPosition到事件數據文件中查找對應的事件數據即可;如果未找到,則返回空;

4、追加一個新事件的處理邏輯

  • 根據aggregateLatestVersionDict判斷事件版本號是否合法,必須是聚合根的當前版本號+1,如果當前版本號不存在,則首先嘗試從eventIndexChunk文件查找當前聚合根的最大版本號,如果還是查找不到,說明當前聚合根確實不存在任何事件,則當前事件版本號必須為1;
  • 根據commandIdDict判斷命令ID是否重覆,如果commandIdDict中不存在該命令,嘗試從commandIndexChunk文件中查找,也是B+樹的方式;這裡需要設計一個配置項,讓開發者配置是否需要繼續從commandIndexChunk文件查找命令ID。有時我們只希望從記憶體查找即可,不希望再從磁碟查找了,因為判斷命令是否重覆我們很多時候只希望檢查最近一段時間內的命令,檢查全部命令代價過大,意義也不是很大;
  • 如果事件的版本號合法、命令ID不重覆,則Append的方式寫入事件數據到eventDataChunk;
  • 寫入完成後,更新aggregateLatestVersionDict、commandIdDict,、BloomFilter的Bit數組,以及將當前的事件放入記憶體的一個雙緩衝隊列;隊列消費者非同步批量將事件索引和命令索引寫入對應的索引文件;
  • 返回事件寫入結果;

5、其他邏輯

  • 非同步線程定時批量持久化事件索引;
  • 非同步線程定時批量持久化命令索引;
  • 非同步線程定時清理不需要放在記憶體的聚合根最新版本號信息(aggregateLatestVersionDict中的key),根據eventTime判斷,只保留最近1周有過變化(產生過事件)的聚合根;
  • 非同步線程定時清理不需要放在記憶體的命令索引(commandIdDict中的key),根據commandTime判斷,只保留最近1周的命令ID;
  • 非同步線程定時進行事件索引和命令索引的B+樹索引的建立,即對已經寫入完成的eventIndexChunk和commandIndexChunk文件的內部重構;
  • eventIndexChunk和commandIndexChunk文件標記為寫入完成前,要把BloomFilter的Bit數組內容寫入文件中;
  • 其他EventStore的啟動邏輯,比如啟動時載入一定數量的索引數據到記憶體,以及索引數據相比事件數據是否有漏掉或無效的檢查;
  • 其他邏輯支持,如支持聚合根的快照存儲,從文件查找數據時,如果文件的B+樹索引信息還未建立,則需要進行全文掃碼;

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 文章首發: "結構型模式:代理模式" 七大結構型模式之七:代理模式。 簡介 姓名 :代理模式 英文名 :Proxy Pattern 價值觀 :為生活加點料 個人介紹 : Provide a surrogate or placeholder for another object to control ...
  • Spring AOP : Pointcut表達式: designators-指示器 wildcards-通配符 operators-操作符 wildcards: * -- 匹配任意數量的字元 + -- 匹配製定類及其子類 ..-- 一般用於匹配任意數的子包或參數 operator: && || ! ...
  • 工廠模式定義一個用於創建對象的介面,讓子類決定實例化哪一個類,工廠方法使一個類的實例化延遲到其子類。工廠模式主要分為簡單工廠模式、工廠方法模式以及抽象工廠模式。 Obj.m Object1.m Object2.m 簡單工廠模式: SimpleFactory.m 測試代碼: 工廠方法模式: Metho ...
  • saltstack快速入門 saltstack介紹 Salt,一種全新的基礎設施管理方式,部署輕鬆,在幾分鐘內可運行起來,擴展性好,很容易管理上萬台伺服器,速度夠快,伺服器之間秒級通訊 主要功能遠程執行配置管理Stalstack官方文檔 Saltstack原理 Salt使用server-agent通 ...
  • http://www.cnblogs.com/xing901022/p/4034492.html ...
  • 目標 用最少的人力成本滿足構建和維護該系統的需求 目標 衡量指標 版本迭代 -- 工程師團隊規模 版本迭代 -- 代碼總行數 版本迭代 -- 代碼變更行數 衡量指標 軟體系統的價值 行為價值 按需求文檔編寫代碼 可用性 功能性bug 性能 穩定性 緊急,但是並不總是重要,在緊急重要矩陣中占據A、C位 ...
  • 狀態模式就是將狀態的條件判斷語句轉化成其函數重寫形式,利用了面向對象語言的多態性,本文根據https://blog.csdn.net/lm324114/article/details/78819602的情景將狀態模式用Matlab語言實現。 根據上圖情景,用傳統的方法實現如下: RoomState. ...
  • 本博文僅僅是筆者自己的學習路線,歸納整理了一些好的設計模式資料。 1、策略模式 參考資料: "c 設計模式 策略模式"   "c 設計模式之策略模式"   "C 設計模式(20)——策略者模式(Stragety Pattern)" 策略模式主要是將產品共有的部分抽象出來,不同的行 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...