OLAP與數據倉庫------《Designing Data-Intensive Applications》讀書筆記4

-Advertisement-

由於第三章的內容比較多，這裡我們拆分成兩篇讀書筆記來記錄。上一章我們聊了聊如何資料庫是如何實現存儲和檢索的，今天這篇我們繼續來看看OLTP與OLAP存儲引擎的區別與聯繫。 1.OLTP與OLAP 聯機事務處理過程（ O n L ine T ransaction P rocessing）也就是我們通常 ...

由於第三章的內容比較多，這裡我們拆分成兩篇讀書筆記來記錄。上一章我們聊了聊如何資料庫是如何實現存儲和檢索的，今天這篇我們繼續來看看OLTP與OLAP存儲引擎的區別與聯繫。

1.OLTP與OLAP

聯機事務處理過程（On-Line Transaction Processing）也就是我們通常稱之的OLTP。
聯機分析處理過程（On-Line Analysis Processing）則被稱為OLAP。

在文中，作者列出了兩類處理過程的區別，我們來一一梳理一下：

OLTP的應用通常讀寫較少的數據，處理的記錄數目也較小。而OLAP的應用處理的數據量級通常是OLTP應用的數十，甚至數百倍。
OLTP的應用通常直接面對應用程式，讀寫延遲容忍度低。而OLAP的應用通常作為內部數據分析，作為決策支持，讀寫延遲的容忍度相對較高。（所以OLAP應用通常是大數據分析的基石，筆者入職狼廠的部門，也主要從事OLAP系統Palo的開發工作）
OLTP的應用通常讀寫的都是最新的數據。而OLAP的應用通常處理的都是海量的歷史數據。

SQL語言它適用於OLTP類型的查詢以及OLAP類型查詢。但是將兩者類型的應用混雜與同一個資料庫，會大大提升DBA的運維難度，同時資料庫也沒辦法因地制宜的更好來設計優化不同的應用。

OLTP系統通常解決的是應用程式高可用性和低延遲的讀寫請求，往往是業務運行的關鍵所在。DBA也並不願意讓數據分析師在OLTP資料庫上運行特殊的解析查詢，因為這些查詢通常需要掃描數據集的大部分，這會損害併發執行事務的性能。所以隨著海量數據不斷增長，越來越多的公司選擇將OLAP應用運行在一個單獨的資料庫來分析。這個單獨的資料庫稱為數據倉庫。

2.數據倉庫

數據倉庫，是一個獨立的資料庫，主要負責分析查詢數據，而不會影響OLTP操作。數據倉庫中包含公司在各種OLTP系統的數據的只讀副本。數據從OLTP資料庫中提取（周期性的進行數據轉儲或持續不斷的更新），將提取的數據的結構轉為易於分析的結構，然後載入到數據倉庫。這樣過程稱為提取–變換–載入（Extract-Transform-Load）
ETL在數據倉庫與資料庫之間的交互

使用一個單獨的數據倉庫，而不是查詢OLTP資料庫直接分析。是因為數據倉庫可以根據訪問的特點優化查詢。上一篇討論的存儲索引結構，通常都適用於OLTP資料庫，但不適用於OLAP系統。接下來我們來看看適用於OLAP系統的存儲索引結構。

3.面向列的存儲

在典型的數據倉庫中，表的結構通常非常寬。事實表通常有超過一百列，有時設置為幾百列。而通常數據倉庫的查詢只訪問一次4或5列的查詢。

大多數的OLTP資料庫，存儲是面向行的：一行之中的所有值會連續存放。
但是，當一個OLAP的存儲查詢需要少數的列時（每行由100多個列組成），需要將數據從磁碟載入到記憶體中，並解析它們，並過濾掉那些不符合所需條件的列。這會造成很多不必要的查詢消耗。

列存儲
面向列存儲的思想很簡單：不要將所有值從一行存儲在一起，而是將每個列中的所有值存儲在一起。如果每個列都存儲在一個單獨的文件中，那麼查詢只需要讀取和解析查詢中使用的那些列，並且同樣的列會更加易於壓縮存儲，這樣就可以減少大量的工作。
列壓縮
通常列中的數據會出現重覆，這就大大適用於壓縮策略。可以根據列中的數據，使用不同的壓縮技術。點陣圖編碼是數據倉庫中的十分有效的壓縮技術：
列排序

在列存儲中，存儲行的順序並不重要。最簡單的就是將它們按照插入的順序排序，因為插入一個新行只意味著追加到每個列文件中。但是，選擇邏輯順序，可以帶來幾點好處。
（1）排序之後的列是有序的，更有利於定位查詢數據。（如：按照時間排序，查詢某個時間段內產生的數據）
（2）它有助於壓縮列。如果主排序列沒有許多不同的值，那麼在排序之後，它將有許多重覆的序列。簡單的編碼壓縮之後，就可以極大的降低存儲開銷。

註意，對每個列進行獨立排序是沒有意義的，因為我們將不再知道列中屬於哪一行。可以新建一個索引來指向對應的行。有序又要求高效，所以排序列的存儲通常都是通過上文提及的SSTable格式在記憶體之中靈活處理。

4.聚合：物化視圖

數據倉庫另一個常用的優化方式是：物化視圖。如前所述，數據倉庫查詢通常涉及聚合函數，如SQL中的計數、總和、平均值、最小值或最大值。如果相同的聚合被許多不同的查詢使用，那麼每次都對原始數據進行處理是十分浪費的。為什麼不緩存查詢中經常使用的一些計數或總數呢？

在關係型的數據模型中，它通常被定義為標準（虛擬）視圖：一個表一樣的對象，其內容是一些查詢的結果。虛擬視圖只是編寫查詢的快捷方式。當您從虛擬視圖中讀取時，SQL引擎將它展開為視圖的底層查詢，然後處理展開的查詢。而物化視圖是將實際的查詢結果寫入磁碟，不需要額外的計算過程。但是當底層數據發生變化時，物化視圖需要更新，因為它是一個非規範化的數據複製。（類似於觸發器的工作原理）。所以物化視圖是不常用於OLTP資料庫，而在數據倉庫進行ETL時進行更新。
通過表的兩個維度，來聚合數據

物化視圖的好處是:某些查詢變得非常快因為他們已經被預先計算。
但物化視圖的缺點是:查詢原始數據的靈活性不足。 例如，沒有辦法計算哪種銷售成本超過100美元的商品的比例。因此，大多數數據倉庫儘量保留儘可能多的原始數據，並且只使用物化視圖作為對某些常用查詢的性能提升。

小結：

梳理了OLAP與數據倉庫的聯繫，同時總結了幾種在數據倉庫種子常用的存儲結構與對應的優化方式。接下來，我們進入下一章來看看編碼在存儲之中的意義。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

.24-淺析webpack源碼之事件流compilation(2)

下一個compilation來源於以下代碼：之前簡單分析該處的apply，此處只看非數組單入口的情況，此時會引入SingleEntryDependency模塊，與compilation相關的內容如下：此處用到了ES6新加的數據結構Map，SingleEntryDependency是個沒什麼營養的 ...
es6 Promise

Promise 是非同步編程的一種方案，簡單說就是一個容器，裡面保存著某個未來才會結束的事件的結果，Promise 是一個對象，從它，可以獲取非同步操作的消息。 Promise 對象有以下兩個特點。 (1)對象的狀態不受外界影響。Promise 對象代表一個非同步操作，有是三種狀態。pendding ( ...
對象的理解

一切皆是對象嗎 ...
H5+混合移動app應用開發——app升級

當我們的app開發完成之後，無可避免的以後會進行產品升級，那麼我們希望在客戶的手機上讓app進行自動升級，可以分為自動升級和手動升級。自動升級：一般在客戶app第一次打開首頁的時候。手動升級：在app界面提供一個升級的入口。界面效果演示如下：代碼其實也很簡單，不過針對ios和android要 ...
HTTP結構

HTTP結構轉載請註明出處： "HTTP結構簡介" HTTP通信過程包括從客戶端發往伺服器的請求和伺服器返回客戶端的響應，這篇文章就簡單的瞭解一下HTTP請求和響應的結構與協議本身的狀態管理。用戶HTTP協議交互的信息被稱為HTTP報文，HTTP報文可分為請求報文和響應報文。請求報文包括請求行、 ...
jQuery數組去重覆

例如： var yearArray = new Array("三二一", "三二一", "學歷", "學歷", "dsa", "das"); $.unique(yearArray); 效果： ...
JavaScript ES6 let、const

在ES6中，增加了2個聲明變數的關鍵字：let 和 const。在這裡將詳細介紹let與var的區別、Babel對let的處理以及const的簡單使用。 ...
中小型研發團隊架構實踐三要點

中小型研發團隊很多，而社區在中小型研發團隊架構實踐方面的探討卻很少。中小型研發團隊特別是 50 至 200 人的研發團隊，在早期的業務探索階段，更多關註業務邏輯，快速迭代以驗證商業模式，很少去關註技術架構。這時如果繼續按照原有的架構及研發模式，會出現大量的問題，再也無法玩下去了。能不能有一套可直接 ...