由一個bug引發的SQLite緩存一致性探索

来源:http://www.cnblogs.com/cchust/archive/2016/03/26/5322529.html
-Advertisement-
Play Games

問題 我們在生產環境中使用SQLite時中發現建表報“table xxx already exists”錯誤,但DB文件中並沒有該表。後面才發現這個是SQLite在實現過程中的一個bug,而這個bug與數據字典的一致性相關,下麵這篇文章主要討論SQLite的緩存機制,以及緩存一致性實現的策略,希望對 ...


問題

     我們在生產環境中使用SQLite時中發現建表報“table xxx already exists”錯誤,但DB文件中並沒有該表。後面才發現這個是SQLite在實現過程中的一個bug,而這個bug與數據字典的一致性相關,下麵這篇文章主要討論SQLite的緩存機制,以及緩存一致性實現的策略,希望對大家瞭解SQLite緩存機制有一定的幫助。

緩存

      SQLite中緩存主要包括兩方面,數據字典緩存和數據頁緩存。SQLite本身是一個文件資料庫,所有的數據都在一個DB文件中,文件以塊(page)的形式存放,預設情況下每個page是1024個位元組。為了避免每次訪問都產生磁碟IO,針對數據塊在SQLite內部實現了一層緩存
pagecache,pagecache的作用就是緩存頁數據。在SQLite內部,除了用戶數據,還有一部分內容是元數據信息,包括表,視圖,索引和觸發器等,這部分元數據信息在資料庫領域一般稱為數據字典,這部分信息也存在DB文件中。由於每次執行語句時,都需要數據字典進行語義分析和執行計劃優化(表是否存在,列是否存在,是否有索引可用,是否存在觸發器等),如果每次獲取這些信息時,都需要從DB文件中獲取,則非常影響性能。你可能會說,不是已經有pagecache了嗎?對的,數據字典的內容也緩存在pagecahce中,但是,要知道page中的數據都是二進位的,需要對內容進行解析產生結構化數據才能使用。為此,為了避免分析語句時,頻繁解析獲取數據字典,將解析好的數據進行緩存,以供多次使用,提高效率。

數據頁緩存一致性
     我們這裡討論的數據頁緩存對應MySQL的概念就是BufferPool,當然其它資料庫Oracle,SQLServer都有類似的概念。
傳統PC上面的資料庫,都是在資料庫服務啟動時,根據參數設定值一次性分配特定大小的BufferPool。而SQLite採用懶分配策略,即“用多少則分配多少”,pagecache預設大小是2000個page,2000個page可以認為是一個緩存的上限。一次性分配的好處是,記憶體在物理是連續的,不容易產生記憶體碎片;而懶分配則更節約記憶體,由於SQLite一般用於端設備,採用懶分配方式可能更經濟實惠。SQLite的緩存分配策略採用LRU,保留最近訪問的page,淘汰最老的page。
      SQLite中每個資料庫連接對應一個DB句柄,應用通過DB句柄來操作資料庫,而pagecache實際上就作為一個成員掛在DB句柄中,因此每個DB句柄都有自己獨立的緩存,這點與傳統的PC資料庫不同(比如MySQL中,所有連接共用BufferPool)。既然每個DB句柄有獨立的緩存,那麼緩存之間如何同步?比如有Connection1和Connection2兩個連接,Connection1首先從文件中讀取了page_A並加入到了緩存;隨後Connection2也從文件中讀取Page_A,併進行了更新;那麼當Connection1再次讀取page_A時,Connection1如何知道自己緩存的page_A已經不是最新了,需要重新到DB文件中讀取?
SQLite為了處理這個問題,在DB的文件控制頭中存放的DB的版本信息,開始執行SQL時會讀取DB的版本信息並緩存,如何發現本次的版本信息與之前的不同,則確認DB文件已經被修改,清理自身的緩存。每次事務提交時,都會調用pager_write_changecounter進行更新,具體位置在第一頁的第24個位元組,占4個位元組。

數據字典緩存一致性
     我們這裡討論的數據字典對應MySQL的概念就是information_schema的系統表,字典緩存就是對系統表信息的結構化信息存儲。在SQLite中字典信息採用Hash表存儲,包括(tblHash,idxHash,trigHash和fkeyHash等)判斷一個對象是否存在的依據是Hash表中對象是否存在。openDatabase函數通過調用sqlite3Init對數據字典進行初始化,並設置標記。與數據頁緩存一樣,字典緩存也是每個DB句柄有單獨的一份數據,同樣的,SQLite文件頭中同樣存放了數據字典的版本信息,具體位置在第一頁的第40個位元組,占4個位元組。進行DDL操作時(CREATE,DROP,ALTER等),會調用sqlite3ChangeCookie更新字典版本號(Schema cookie)。在Prepare階段分析語句時,若發現對象不存在,會觸發一次Schema cookie檢查,如果數據字典不是最新,則會調用sqlite3SchemaClear進行清理,並重新載入數據字典。另外,SQLite的數據字典表非常簡單,主要在sqlite_master表中,每個對象都是一行記錄,記錄中包含了表定義,載入字典時,實際就是將表定義語句分析一遍,通過調用sqlite3EndTable將對象加入Hash表,非常方便。

小結
     可以看到,無論數據頁緩存也好,數據字典緩存也好,SQLite都是採用一個版本號來控製版本信息,非常簡單實用,但缺點是粒度非常大。如果DB寫非常頻繁,那麼每次讀基本都會導致物理IO,可能修改的是A表,訪問B表也需要將緩存清空。這裡也可以解釋為什麼頁緩存是“懶載入”模式,這樣清空緩存的代價也相對較小。對於數據字典緩存,粒度同樣很粗,每修改一個表,視圖,觸發器等對象,都會觸發數據字典版本更新。當然SQLite不會傻傻的每次執行SQL時都去判斷自己的版本是否最新,只是在訪問對象時,對象不存在的情況才去檢查版本,這樣在一定程度上減少了載入的次數,但這樣也帶來了問題,下麵回到問題本身。

回到問題
     前面我們拋出了一個SQLite的bug,這裡來細說來龍去脈。假設有兩個DB句柄,分別稱為A和B。執行如下序列: A:create table t(id int); B:DROP table if exists t; A: create table t(id int); 第二次A建表時會報“table t already exists”錯誤,而實際上表已經不存在了。這主要原因就是第3步A建表時發現表存在並沒有觸發去判斷數據字典是否最新的邏輯,導致誤報。復現該問題時要註意關閉sharecache,因為在sharecache模式下,所有的DB句柄共用一個緩存區。其實問題很簡單,但猜測復現問題還是花了一點精力。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 關於資料庫索引 主索引是候選索引的特例,能唯一標識一條記錄,只能由一個欄位組成。一個表只能建立一個主索引。 主索 引的關鍵字絕對不允許有重覆值。 2.候選索引也能唯一標識一條記錄,但不一定只由一個欄位組成,可以由兩個或兩個以上欄位組成,一個表可以建立多個候選索引。 它的值也 不允許在指定的欄位或 ...
  • 頻繁項集 的非空子集也必須是頻繁項集 非頻繁項集的任一超集也必然不是頻繁項集 如果K-維頻繁項集集合中包含單個項目i的個數小於K-1,則i不可能在頻繁K項集中(apriori演算法中並沒有用到這個性質,可以藉助這個性質來進行優化,性質會在後面舉例) ...
  • 1.創建表並插入數據 在Sql Server2008中創建測試資料庫Test,接著創建資料庫表並插入數據,sql代碼如下: 執行完上述sql代碼以後我們會發現在Test資料庫中多出了一張emp_pay表,資料庫表的內容如下圖所示: 2.無索引查找 從上圖我們可以看出資料庫中存儲的數據排列順序與我們插 ...
  • 在資料庫中單獨創建一張表,保存當前存儲狀態,“存儲過程” 設置訪問條件root初始值為“0” 如果root值不為0的時候就不可訪問併進行相關操作。 在事務執行前將root值設置為1,事務結束後將root值設置為0. ...
  • Transact-SQL中的存儲過程,非常類似於Java語言中的方法,它可以重覆調用。當存儲過程執行一次後,可以將語句緩存中,這樣下次執行的時候直接使用緩存中的語句。這樣就可以提高存儲過程的性能。 Ø 存儲過程的概念 存儲過程Procedure是一組為了完成特定功能的SQL語句集合,經編譯後存儲在數 ...
  • LINQ的書寫格式如下: from 臨時變數 in 集合對象或資料庫對象 where 條件表達式 [order by條件] select 臨時變數中被查詢的值 [group by 條件] Lambda表達式的書寫格式如下: (參數列表) => 表達式或者語句塊 其中: 參數個數:可以有多個參數,一個 ...
  • ...
  • 開發的時候,寫了個很簡單的Sql ,大概就是 總數除以數量 得出的平均值。看起來很平常是不是!簡單來說就是 Total / Count 嘛!最多轉個2位小數用Convert就完事了對不對。 但是呢,有些數據的Count值本身是就是0的。然後就會報遇到以0作為除數的錯誤的問題了啊~ 然後演示幾種可能出 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...