OLAP與數據倉庫------《Designing Data-Intensive Applications》讀書筆記4

来源:https://www.cnblogs.com/happenlee/archive/2018/01/08/8243402.html
-Advertisement-
Play Games

由於第三章的內容比較多,這裡我們拆分成兩篇讀書筆記來記錄。上一章我們聊了聊如何資料庫是如何實現存儲和檢索的,今天這篇我們繼續來看看OLTP與OLAP存儲引擎的區別與聯繫。 1.OLTP與OLAP 聯機事務處理過程( O n L ine T ransaction P rocessing)也就是我們通常 ...


由於第三章的內容比較多,這裡我們拆分成兩篇讀書筆記來記錄。上一章我們聊了聊如何資料庫是如何實現存儲和檢索的,今天這篇我們繼續來看看OLTP與OLAP存儲引擎的區別與聯繫。

1.OLTP與OLAP

聯機事務處理過程(On-Line Transaction Processing)也就是我們通常稱之的OLTP
聯機分析處理過程(On-Line Analysis Processing)則被稱為OLAP

在文中,作者列出了兩類處理過程的區別,我們來一一梳理一下:

  • OLTP的應用通常讀寫較少的數據,處理的記錄數目也較小。而OLAP的應用處理的數據量級通常是OLTP應用的數十,甚至數百倍。
  • OLTP的應用通常直接面對應用程式,讀寫延遲容忍度低。而OLAP的應用通常作為內部數據分析,作為決策支持,讀寫延遲的容忍度相對較高。(所以OLAP應用通常是大數據分析的基石,筆者入職狼廠的部門,也主要從事OLAP系統Palo的開發工作
  • OLTP的應用通常讀寫的都是最新的數據。而OLAP的應用通常處理的都是海量的歷史數據。

SQL語言它適用於OLTP類型的查詢以及OLAP類型查詢。但是將兩者類型的應用混雜與同一個資料庫,會大大提升DBA的運維難度,同時資料庫也沒辦法因地制宜的更好來設計優化不同的應用。

OLTP系統通常解決的是應用程式高可用性和低延遲的讀寫請求,往往是業務運行的關鍵所在。DBA也並不願意讓數據分析師在OLTP資料庫上運行特殊的解析查詢,因為這些查詢通常需要掃描數據集的大部分,這會損害併發執行事務的性能。 所以隨著海量數據不斷增長,越來越多的公司選擇將OLAP應用運行在一個單獨的資料庫來分析。這個單獨的資料庫稱為數據倉庫

2.數據倉庫

數據倉庫,是一個獨立的資料庫,主要負責分析查詢數據,而不會影響OLTP操作。數據倉庫中包含公司在各種OLTP系統的數據的只讀副本。數據從OLTP資料庫中提取(周期性的進行數據轉儲或持續不斷的更新),將提取的數據的結構轉為易於分析的結構,然後載入到數據倉庫。這樣過程稱為提取–變換–載入(Extract-Transform-Load)
ETL在數據倉庫與資料庫之間的交互

使用一個單獨的數據倉庫,而不是查詢OLTP資料庫直接分析。是因為數據倉庫可以根據訪問的特點優化查詢。上一篇討論的存儲索引結構,通常都適用於OLTP資料庫,但不適用於OLAP系統。接下來我們來看看適用於OLAP系統的存儲索引結構。

3.面向列的存儲

在典型的數據倉庫中,表的結構通常非常寬。事實表通常有超過一百列,有時設置為幾百列。而通常數據倉庫的查詢只訪問一次4或5列的查詢。

大多數的OLTP資料庫,存儲是面向行的:一行之中的所有值會連續存放。
但是,當一個OLAP的存儲查詢需要少數的列時(每行由100多個列組成),需要將數據從磁碟載入到記憶體中,並解析它們,並過濾掉那些不符合所需條件的列。這會造成很多不必要的查詢消耗。

  • 列存儲
    面向列存儲的思想很簡單:不要將所有值從一行存儲在一起,而是將每個列中的所有值存儲在一起。如果每個列都存儲在一個單獨的文件中,那麼查詢只需要讀取和解析查詢中使用的那些列,並且同樣的列會更加易於壓縮存儲,這樣就可以減少大量的工作。
    按列而不是按行存儲關係數據

  • 列壓縮
    通常列中的數據會出現重覆,這就大大適用於壓縮策略。可以根據列中的數據,使用不同的壓縮技術。點陣圖編碼是數據倉庫中的十分有效的壓縮技術:
    壓縮的點陣圖索引存儲單列。

  • 列排序

在列存儲中,存儲行的順序並不重要。最簡單的就是將它們按照插入的順序排序,因為插入一個新行只意味著追加到每個列文件中。但是,選擇邏輯順序,可以帶來幾點好處。
(1) 排序之後的列是有序的,更有利於定位查詢數據。(如:按照時間排序,查詢某個時間段內產生的數據)
(2) 它有助於壓縮列。如果主排序列沒有許多不同的值,那麼在排序之後,它將有許多重覆的序列。簡單的編碼壓縮之後,就可以極大的降低存儲開銷。

註意,對每個列進行獨立排序是沒有意義的,因為我們將不再知道列中屬於哪一行。可以新建一個索引來指向對應的行。有序又要求高效,所以排序列的存儲通常都是通過上文提及的SSTable格式在記憶體之中靈活處理。

4.聚合:物化視圖

數據倉庫另一個常用的優化方式是:物化視圖。如前所述,數據倉庫查詢通常涉及聚合函數,如SQL中的計數、總和、平均值、最小值或最大值。如果相同的聚合被許多不同的查詢使用,那麼每次都對原始數據進行處理是十分浪費的。為什麼不緩存查詢中經常使用的一些計數或總數呢?

在關係型的數據模型中,它通常被定義為標準(虛擬)視圖:一個表一樣的對象,其內容是一些查詢的結果。虛擬視圖只是編寫查詢的快捷方式。當您從虛擬視圖中讀取時,SQL引擎將它展開為視圖的底層查詢,然後處理展開的查詢。而物化視圖是將實際的查詢結果寫入磁碟,不需要額外的計算過程。但是當底層數據發生變化時,物化視圖需要更新,因為它是一個非規範化的數據複製。(類似於觸發器的工作原理)。所以物化視圖是不常用於OLTP資料庫,而在數據倉庫進行ETL時進行更新。
通過表的兩個維度,來聚合數據

物化視圖的好處是:某些查詢變得非常快因為他們已經被預先計算。
但物化視圖的缺點是:查詢原始數據的靈活性不足。 例如,沒有辦法計算哪種銷售成本超過100美元的商品的比例。因此,大多數數據倉庫儘量保留儘可能多的原始數據,並且只使用物化視圖作為對某些常用查詢的性能提升。

小結:

梳理了OLAP與數據倉庫的聯繫,同時總結了幾種在數據倉庫種子常用的存儲結構與對應的優化方式。接下來,我們進入下一章來看看編碼在存儲之中的意義。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 下一個compilation來源於以下代碼: 之前簡單分析該處的apply,此處只看非數組單入口的情況,此時會引入SingleEntryDependency模塊,與compilation相關的內容如下: 此處用到了ES6新加的數據結構Map,SingleEntryDependency是個沒什麼營養的 ...
  • Promise 是非同步編程的一種方案,簡單說就是一個容器,裡面保存著某個未來才會結束的事件的 結果,Promise 是一個對象,從它,可以獲取非同步操作的消息。 Promise 對象有以下兩個特點。 (1)對象的狀態不受外界影響。Promise 對象代表一個非同步操作,有是三種狀態。pendding ( ...
  • 一切皆是對象嗎 ...
  • 當我們的app開發完成之後,無可避免的以後會進行產品升級,那麼我們希望在客戶的手機上讓app進行自動升級,可以分為自動升級和手動升級。 自動升級:一般在客戶app第一次打開首頁的時候。 手動升級:在app界面提供一個升級的入口。 界面效果演示如下: 代碼其實也很簡單,不過針對ios和android要 ...
  • HTTP結構 轉載請註明出處: "HTTP結構簡介" HTTP通信過程包括從客戶端發往伺服器的請求和伺服器返回客戶端的響應,這篇文章就簡單的瞭解一下HTTP請求和響應的結構與協議本身的狀態管理。 用戶HTTP協議交互的信息被稱為HTTP報文,HTTP報文可分為請求報文和響應報文。請求報文包括請求行、 ...
  • 例如: var yearArray = new Array("三二一", "三二一", "學歷", "學歷", "dsa", "das"); $.unique(yearArray); 效果: ...
  • 在ES6中,增加了2個聲明變數的關鍵字:let 和 const。在這裡將詳細介紹let與var的區別、Babel對let的處理以及const的簡單使用。 ...
  • 中小型研發團隊很多,而社區在中小型研發團隊架構實踐方面的探討卻很少。中小型研發團隊特別是 50 至 200 人的研發團隊,在早期的業務探索階段,更多關註業務邏輯,快速迭代以驗證商業模式,很少去關註技術架構。 這時如果繼續按照原有的架構及研發模式,會出現大量的問題,再也無法玩下去了。能不能有一套可直接 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...