RocksDB上鎖機制

来源:http://www.cnblogs.com/cchust/archive/2017/07/03/7107392.html
-Advertisement-
Play Games

RocksDB作為一個開源的存儲引擎支持事務的ACID特性,而要支持ACID中的I(Isolation),併發控制這塊是少不了的,本文主要討論RocksDB的鎖機制實現,細節會涉及到源碼分析,希望通過本文讀者可以深入瞭解RocksDB併發控制原理。文章主要從以下4方面展開,首先會介紹RocksDB鎖 ...


      RocksDB作為一個開源的存儲引擎支持事務的ACID特性,而要支持ACID中的I(Isolation),併發控制這塊是少不了的,本文主要討論RocksDB的鎖機制實現,細節會涉及到源碼分析,希望通過本文讀者可以深入瞭解RocksDB併發控制原理。文章主要從以下4方面展開,首先會介紹RocksDB鎖的基本結構,然後我會介紹RocksDB行鎖數據結構設計下,鎖空間開銷,接著我會介紹幾種典型場景的上鎖流程,最後會介紹鎖機制中必不可少的死鎖檢測機制。

1.行鎖數據結構
    RocksDB鎖粒度最小是行,對於KV存儲而言,鎖對象就是key,每一個key對應一個LockInfo結構。所有key通過hash表管理,查找鎖時,直接通過hash表定位即可確定這個key是否已經被上鎖。但如果全局只有一個hash表,會導致這個訪問這個hash表的衝突很多,影響併發性能。RocksDB首先按Columnfamily進行拆分,每個Columnfamily中的鎖通過一個LockMap管理,而每個LockMap再拆分成若幹個分片,每個分片通過LockMapStripe管理,而hash表(std::unordered_map<std::string, LockInfo>)則存在於Stripe結構中,Stripe結構中還包含一個mutex和condition_variable,這個主要作用是,互斥訪問hash表,當出現鎖衝突時,將線程掛起,解鎖後,喚醒掛起的線程。這種設計很簡單但也帶來一個顯而易見的問題,就是多個不相關的鎖公用一個condition_variable,導致鎖釋放時,不必要的喚醒一批線程,而這些線程重試後,發現仍然需要等待,造成了無效的上下文切換。對比我們之前討論的InnoDB鎖機制,我們發現InnoDB是一個page裡面的記錄復用一把鎖,而且復用是有條件的,同一個事務對一個page的若幹條記錄加鎖才能復用;而且鎖等待隊列是精確等待,精確到記錄級別,不會導致的無效的喚醒。雖然RocksDB鎖設計比較粗糙,但也做了一定的優化,比如在管理LockMaps時,通過在每個線程本地緩存一份拷貝lock_maps_cache_,通過全局鏈表將每個線程的cache鏈起來,當LockMaps變更時(刪除columnfamily),則全局將每個線程的copy清空,由於columnfamily改動很少,所以大部分訪問LockMaps操作都是不需要加鎖的,提高了併發效率。
相關數據結構如下:

struct LockInfo {
bool exclusive; //排它鎖或是共用鎖
autovector<TransactionID> txn_ids; //事務列表,對於共用鎖而言,同一個key可以對應多個事務

// Transaction locks are not valid after this time in us
uint64_t expiration_time;
}

struct LockMapStripe { 
// Mutex must be held before modifying keys map
std::shared_ptr<TransactionDBMutex> stripe_mutex;

// Condition Variable per stripe for waiting on a lock
std::shared_ptr<TransactionDBCondVar> stripe_cv;

// Locked keys mapped to the info about the transactions that locked them.
std::unordered_map<std::string, LockInfo> keys;
}

struct LockMap {
const size_t num_stripes_; //分片個數
std::atomic<int64_t> lock_cnt{0}; //鎖數目
std::vector<LockMapStripe*> lock_map_stripes_; //鎖分片
}

class TransactionLockMgr {
using LockMaps = std::unordered_map<uint32_t, std::shared_ptr<LockMap>>;
LockMaps lock_maps_;

// Thread-local cache of entries in lock_maps_. This is an optimization
// to avoid acquiring a mutex in order to look up a LockMap
std::unique_ptr<ThreadLocalPtr> lock_maps_cache_;
}

2.行鎖空間代價
    由於鎖信息是常駐記憶體,我們簡單分析下RocksDB鎖占用的記憶體。每個鎖實際上是unordered_map中的一個元素,則鎖占用的記憶體為key_length+8+8+1,假設key為bigint,占8個位元組,則100w行記錄,需要消耗大約22M記憶體。但是由於記憶體與key_length正相關,導致RocksDB的記憶體消耗不可控。我們可以簡單算算RocksDB作為MySQL存儲引擎時,key_length的範圍。對於單列索引,最大值為2048個位元組,具體可以參考max_supported_key_part_length實現;對於複合索引,索引最大長度為3072個位元組,具體可以參考max_supported_key_length實現。假設最壞的情況,key_length=3072,則100w行記錄,需要消耗3G記憶體,如果是鎖1億行記錄,則需要消耗300G記憶體,這種情況下記憶體會有撐爆的風險。因此RocksDB提供參數配置max_row_locks,確保記憶體可控,預設RDB_MAX_ROW_LOCKS設置為1G,對於大部分key為bigint場景,極端情況下,也需要消耗22G記憶體。而在這方面,InnoDB則比較友好,hash表的key是(space_id, page_no),所以無論key有多大,key部分的記憶體消耗都是恆定的。前面我也提到了InnoDB在一個事務需要鎖大量記錄場景下是有優化的,多個記錄可以公用一把鎖,這樣也間接可以減少記憶體。

3.上鎖流程分析
    前面簡單瞭解了RocksDB鎖數據結構的設計以及鎖對記憶體資源的消耗。這節主要介紹幾種典型場景下,RocksDB是如何加鎖的。與InnoDB一樣,RocksDB也支持MVCC,讀不上鎖,為了方便,下麵的討論基於RocksDB作為MySQL的一個引擎來展開,主要包括三類,基於主鍵的更新,基於二級索引的更新,基於主鍵的範圍更新等。在展開討論之前,有一點需要說明的是,RocksDB與InnoDB不同,RocksDB的更新也是基於快照的,而InnoDB的更新基於當前讀,這種差異也使得在實際應用中,相同隔離級別下,表現有所不一樣。對於RocksDB而言,在RC隔離級別下,每個語句開始都會重新獲取一次快照;在RR隔離級別下,整個事務中只在第一個語句開始時獲取一次快照,所有語句共用這個快照,直到事務結束。

3.1.基於主鍵的更新
這裡主要介面是TransactionBaseImpl::GetForUpdate
1).嘗試對key加鎖,如果鎖被其它事務持有,則需要等待
2).創建snapshot
3).調用ValidateSnapshot,Get key,通過比較Sequence判斷key是否被更新過
4).由於是加鎖後,再獲取snapshot,所以檢查一定成功。
5).執行更新操作
這裡有一個延遲獲取快照的機制,實際上在語句開始時,需要調用acquire_snapshot獲取快照,但為了避免衝突導致的重試,在對key加鎖後,再獲取snapshot,這就保證了在基於主鍵更新的場景下,不會存在ValidateSnapshot失敗的場景。

堆棧如下:

1-myrocks::ha_rocksdb::get_row_by_rowid
2-myrocks::ha_rocksdb::get_for_update
3-myrocks::Rdb_transaction_impl::get_for_update
4-rocksdb::TransactionBaseImpl::GetForUpdate
{
//加鎖
5-rocksdb::TransactionImpl::TryLock
  6-rocksdb::TransactionDBImpl::TryLock
    7-rocksdb::TransactionLockMgr::TryLock 

 //延遲獲取快照,與acquire_snapshot配合使用
 6-SetSnapshotIfNeeded()

 //檢查key對應快照是否過期
 6-ValidateSnapshot
  7-rocksdb::TransactionUtil::CheckKeyForConflict
    8-rocksdb::TransactionUtil::CheckKey
      9-rocksdb::DBImpl::GetLatestSequenceForKey //第一次讀取

//讀取key
5-rocksdb::TransactionBaseImpl::Get
  6-rocksdb::WriteBatchWithIndex::GetFromBatchAndDB
    7-rocksdb::DB::Get
      8-rocksdb::DBImpl::Get
        9-rocksdb::DBImpl::GetImpl //第二次讀取
}

3.2.基於主鍵的範圍更新
1).創建Snapshot,基於迭代器掃描主鍵
2).通過get_row_by_rowid,嘗試對key加鎖
3).調用ValidateSnapshot,Get key,通過比較Sequence判斷key是否被更新過
4).如果key被其它事務更新過(key對應的SequenceNumber比Snapshot要新),觸發重試
5).重試情況下,會釋放老的快照並釋放鎖,通過tx->acquire_snapshot(false),延遲獲取快照(加鎖後,再拿snapshot)
5).再次調用get_for_update,由於此時key已經被加鎖,重試一定可以成功。
6).執行更新操作
7).跳轉到1,繼續執行,直到主鍵不符合條件時,則結束。

3.3.基於二級索引的更新
這種場景與3.2類似,只不過多一步從二級索引定位主鍵過程。
1).創建Snapshot,基於迭代器掃描二級索引
2).根據二級索引反向找到主鍵,實際上也是調用get_row_by_rowid,這個過程就會嘗試對key加鎖
3).繼續根據二級索引遍歷下一個主鍵,嘗試加鎖
4).當返回的二級索引不符合條件時,則結束

3.4 與InnoDB加鎖的區別
      前面我們說到了RocksDB與InnoDB的一點區別是,對於更新場景,RocksDB仍然是快照讀,而InnoDB是當前讀,導致行為上的差異。比如在RC隔離級別下的範圍更新場景,比如一個事務要更新1000條記錄,由於是邊掃描邊加鎖,可能在掃描到第999條記錄時,發現這個key的Sequence大於掃描的快照(這個key被其它事務更新了),這個時候會觸發重新獲取快照,然後基於這個快照拿到最新的key值。InnoDB則沒有這個問題,通過當前讀,掃描過程中,如果第999條記錄被更新了,InnoDB可以直接看到最新的記錄。這種情況下,RocksDB和InnoDB看到的結果是一樣的。在另外一種情況下,假設也是掃描的範圍中,新插入了key,這key的Sequence毫無疑問會比掃描的Snapshot要大,因此在Scan過程中這個key會被過濾掉,也就不存在所謂的衝突檢測了,這個key不會被找到。更新過程中,插入了id為1和900的兩條記錄,最後第900條記錄由於不可見,所以更新不到。而對於InnoDB而言,由於是當前讀,新插入的id為900的記錄可以被看到並更新,所以這裡是與InnoDB有區別的地方。
      除了更新基於快照這個區別以外,RocksDB在加鎖上也更簡潔,所有加鎖只涉及唯一索引,具體而言,在更新過程中,只對主鍵加鎖;更新列涉及唯一約束時,需要加鎖;而普通二級索引,則不用加鎖,這個目的是為了避免唯一約束衝突。這裡面,如果更新了唯一約束(主鍵,或者唯一索引),都需要加鎖。而InnoDB則是需要對每個索引加鎖,比如基於二級索引定位更新,則二級索引也需要加鎖。之所以有這個區別是,是因為InnoDB為了實現RR隔離級別。這裡稍微講下隔離級別,實際上MySQL中定義的RR隔離級別與SQL標准定義的隔離級別有點不一樣。SQL標准定義RR隔離級別解決不可重覆讀的問題,Serializable隔離級別解決幻讀問題。不可重覆讀側重講同一條記錄值不會修改;而幻讀則側重講兩次讀返回的記錄條數是固定的,不會增加或減少記錄數目。MySQL定義RR隔離級別同時解決了不可重覆讀和幻讀問題,而InnoDB中RR隔離級別的實現就是依賴於GAP鎖。而RocksDB不支持GAP鎖(僅僅支持唯一約束檢查,對不存在的key加鎖),因為基於快照的機制可以有效過濾掉新插入的記錄,而InnoDB由於當前讀,導致需要通過間隙鎖禁止其它插入,所以二級索引也需要加鎖,主要是為了鎖間隙,否則兩次當前讀的結果可能不一樣。當然,對RC割裂級別,InnoDB普通二級索引也是沒有必要加鎖的。

4.死鎖檢測演算法
      死鎖檢測採用DFS((Depth First Search,深度優先演算法),基本思路根據加入等待關係,繼續查找被等待者的等待關係,如果發現成環,則認為發生了死鎖,當然在大併發系統下,鎖等待關係非常複雜,為了將死鎖檢測帶來的資源消耗控制在一定範圍,可以通過設置deadlock_detect_depth來控制死鎖檢測搜索的深度,或者在特定業務場景下,認為一定不會發生死鎖,則關閉死鎖檢測,這樣在一定程度上有利於系統併發的提升。需要說明的是,如果關閉死鎖,最好配套將鎖等待超時時間設置較小,避免系統真發生死鎖時,事務長時間hang住。死鎖檢測基本流程如下:
1.定位到具體某個分片,獲取mutex
2.調用AcquireLocked嘗試加鎖
3.若上鎖失敗,則觸發進行死鎖檢測
4.調用IncrementWaiters增加一個等待者
5.如果等待者不在被等待者map裡面,則肯定不會存在死鎖,返回
6.對於被等待者,沿著wait_txn_map_向下檢查等待關係,看看是否成環
7.若發現成環,則將調用DecrementWaitersImpl將新加入的等待關係解除,並報死鎖錯誤。

相關的數據結構:

class TransactionLockMgr {
// Must be held when modifying wait_txn_map_ and rev_wait_txn_map_.
std::mutex wait_txn_map_mutex_;

// Maps from waitee -> number of waiters.
HashMap<TransactionID, int> rev_wait_txn_map_;

// Maps from waiter -> waitee.
HashMap<TransactionID, autovector<TransactionID>> wait_txn_map_;

DecrementWaiters //

IncrementWaiters //
}

struct TransactionOptions {
bool deadlock_detect = false; //是否檢測死鎖
int64_t deadlock_detect_depth = 50; //死鎖檢測的深度
int64_t lock_timeout = -1; //等待鎖時間,線上一般設置為5s
int64_t expiration = -1; //持有鎖時間,
}

參考文檔
https://github.com/mdcallag/mytools/wiki/Cursor-Isolation
https://www.postgresql.org/docs/9.4/static/transaction-iso.html
https://github.com/facebook/mysql-5.6/issues/340
http://www.cnblogs.com/digdeep/p/4947694.html
http://www.cnblogs.com/digdeep/archive/2015/11/16/4968453.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • function busUpLoadImg(postUrl,id) { .......//省略部分不用修改 uploader.on('uploadSuccess', function(file) { $('#' + file.id).addClass('upload-state-done'); //... ...
  • 手機號碼: 電子郵箱: 身份證: 銀行卡: ...
  • 廢話不多說,直接進入主題,margin相關技巧。 1、設置元素水平居中:margin:x auto; 2、margin負值讓元素位移及邊框合併。 外邊距合併 指當兩個垂直外邊距相遇時,它們將形成一個外邊距。合併後的外邊距的高度等於兩個發生合併的外邊距的高度中的較大者。 解決外邊距合併的方法: a、使 ...
  • 這周末在家呆了兩天,正好中午閑暇時間繼續分享Angularjs相關,今天主要分享Angularjs總體介紹及數據綁定部分內容,下麵直接進入主題。 1、基本概念: AngularJS是為了剋服HTML在構建應用上的不足而設計的。HTML是一門很好的偽靜態文本展示設計的聲明式語言,但要構建WEB應用的話 ...
  • 需求:最近公司需要做一個樓宇對講的功能:門口機(連接WIFI)撥號對室內機(對應的WIFI)的設備進行呼叫,室內機收到呼叫之後將對收到的數據進行UDP廣播的轉發,手機(連接對應的WIFI)收到視頻流之後,實時的展示視頻數據(手機可以接聽,掛斷,手機接聽之後,室內機不展示視頻,只是進行轉發。) 簡單點 ...
  • 原作者,介紹Kotlin中密封類。這些新概念讓您更接近函數式編程成為可能。 ...
  • 把我認為最好的知識,拿來與他人分享,是這一生快事之一! React Native 項目常用第三方組件彙總: react-native-animatable 動畫 react-native-carousel 輪播 react-native-countdown 倒計時 react-native-devi ...
  • 一、GCD基本概念 GCD 全稱Grand Central Dispatch(大中樞隊列調度),是一套低層API,提供了⼀種新的方法來進⾏併發程式編寫。從基本功能上講,GCD有點像NSOperationQueue,他們都允許程式將任務切分為多個單一任務,然後提交⾄⼯作隊列來併發的或者串⾏的執行。GC ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...