由於第三章的內容比較多,這裡我們拆分成兩篇讀書筆記來記錄。上一章我們聊了聊如何資料庫是如何實現存儲和檢索的,今天這篇我們繼續來看看OLTP與OLAP存儲引擎的區別與聯繫。 1.OLTP與OLAP 聯機事務處理過程( O n L ine T ransaction P rocessing)也就是我們通常 ...
由於第三章的內容比較多,這裡我們拆分成兩篇讀書筆記來記錄。上一章我們聊了聊如何資料庫是如何實現存儲和檢索的,今天這篇我們繼續來看看OLTP與OLAP存儲引擎的區別與聯繫。
1.OLTP與OLAP
聯機事務處理過程(On-Line Transaction Processing)也就是我們通常稱之的OLTP。
聯機分析處理過程(On-Line Analysis Processing)則被稱為OLAP。
在文中,作者列出了兩類處理過程的區別,我們來一一梳理一下:
- OLTP的應用通常讀寫較少的數據,處理的記錄數目也較小。而OLAP的應用處理的數據量級通常是OLTP應用的數十,甚至數百倍。
- OLTP的應用通常直接面對應用程式,讀寫延遲容忍度低。而OLAP的應用通常作為內部數據分析,作為決策支持,讀寫延遲的容忍度相對較高。(所以OLAP應用通常是大數據分析的基石,筆者入職狼廠的部門,也主要從事OLAP系統Palo的開發工作)
- OLTP的應用通常讀寫的都是最新的數據。而OLAP的應用通常處理的都是海量的歷史數據。
SQL語言它適用於OLTP類型的查詢以及OLAP類型查詢。但是將兩者類型的應用混雜與同一個資料庫,會大大提升DBA的運維難度,同時資料庫也沒辦法因地制宜的更好來設計優化不同的應用。
OLTP系統通常解決的是應用程式高可用性和低延遲的讀寫請求,往往是業務運行的關鍵所在。DBA也並不願意讓數據分析師在OLTP資料庫上運行特殊的解析查詢,因為這些查詢通常需要掃描數據集的大部分,這會損害併發執行事務的性能。 所以隨著海量數據不斷增長,越來越多的公司選擇將OLAP應用運行在一個單獨的資料庫來分析。這個單獨的資料庫稱為數據倉庫。
2.數據倉庫
數據倉庫,是一個獨立的資料庫,主要負責分析查詢數據,而不會影響OLTP操作。數據倉庫中包含公司在各種OLTP系統的數據的只讀副本。數據從OLTP資料庫中提取(周期性的進行數據轉儲或持續不斷的更新),將提取的數據的結構轉為易於分析的結構,然後載入到數據倉庫。這樣過程稱為提取–變換–載入(Extract-Transform-Load)
使用一個單獨的數據倉庫,而不是查詢OLTP資料庫直接分析。是因為數據倉庫可以根據訪問的特點優化查詢。上一篇討論的存儲索引結構,通常都適用於OLTP資料庫,但不適用於OLAP系統。接下來我們來看看適用於OLAP系統的存儲索引結構。
3.面向列的存儲
在典型的數據倉庫中,表的結構通常非常寬。事實表通常有超過一百列,有時設置為幾百列。而通常數據倉庫的查詢只訪問一次4或5列的查詢。
大多數的OLTP資料庫,存儲是面向行的:一行之中的所有值會連續存放。
但是,當一個OLAP的存儲查詢需要少數的列時(每行由100多個列組成),需要將數據從磁碟載入到記憶體中,並解析它們,並過濾掉那些不符合所需條件的列。這會造成很多不必要的查詢消耗。
列存儲
面向列存儲的思想很簡單:不要將所有值從一行存儲在一起,而是將每個列中的所有值存儲在一起。如果每個列都存儲在一個單獨的文件中,那麼查詢只需要讀取和解析查詢中使用的那些列,並且同樣的列會更加易於壓縮存儲,這樣就可以減少大量的工作。
列壓縮
通常列中的數據會出現重覆,這就大大適用於壓縮策略。可以根據列中的數據,使用不同的壓縮技術。點陣圖編碼是數據倉庫中的十分有效的壓縮技術:
列排序
在列存儲中,存儲行的順序並不重要。最簡單的就是將它們按照插入的順序排序,因為插入一個新行只意味著追加到每個列文件中。但是,選擇邏輯順序,可以帶來幾點好處。
(1) 排序之後的列是有序的,更有利於定位查詢數據。(如:按照時間排序,查詢某個時間段內產生的數據)
(2) 它有助於壓縮列。如果主排序列沒有許多不同的值,那麼在排序之後,它將有許多重覆的序列。簡單的編碼壓縮之後,就可以極大的降低存儲開銷。
註意,對每個列進行獨立排序是沒有意義的,因為我們將不再知道列中屬於哪一行。可以新建一個索引來指向對應的行。有序又要求高效,所以排序列的存儲通常都是通過上文提及的SSTable格式在記憶體之中靈活處理。
4.聚合:物化視圖
數據倉庫另一個常用的優化方式是:物化視圖。如前所述,數據倉庫查詢通常涉及聚合函數,如SQL中的計數、總和、平均值、最小值或最大值。如果相同的聚合被許多不同的查詢使用,那麼每次都對原始數據進行處理是十分浪費的。為什麼不緩存查詢中經常使用的一些計數或總數呢?
在關係型的數據模型中,它通常被定義為標準(虛擬)視圖:一個表一樣的對象,其內容是一些查詢的結果。虛擬視圖只是編寫查詢的快捷方式。當您從虛擬視圖中讀取時,SQL引擎將它展開為視圖的底層查詢,然後處理展開的查詢。而物化視圖是將實際的查詢結果寫入磁碟,不需要額外的計算過程。但是當底層數據發生變化時,物化視圖需要更新,因為它是一個非規範化的數據複製。(類似於觸發器的工作原理)。所以物化視圖是不常用於OLTP資料庫,而在數據倉庫進行ETL時進行更新。
物化視圖的好處是:某些查詢變得非常快因為他們已經被預先計算。
但物化視圖的缺點是:查詢原始數據的靈活性不足。 例如,沒有辦法計算哪種銷售成本超過100美元的商品的比例。因此,大多數數據倉庫儘量保留儘可能多的原始數據,並且只使用物化視圖作為對某些常用查詢的性能提升。
小結:
梳理了OLAP與數據倉庫的聯繫,同時總結了幾種在數據倉庫種子常用的存儲結構與對應的優化方式。接下來,我們進入下一章來看看編碼在存儲之中的意義。