為什麼列式存儲會被廣泛用在 OLAP 中？

-Advertisement-

大家好，我是大D。不知是否有小伙伴們疑問，為什麼列式存儲會廣泛地應用在 OLAP 領域，和行式存儲相比，它的優勢在哪裡？今天我們一起來對比下這兩種存儲方式的差別。其實，列式存儲並不是一項新技術，最早可以追溯到 1983 年的論文 Cantor。然而，受限於早期的硬體條件和應用場景，傳統的事務型數 ...

大家好，我是大D。

不知是否有小伙伴們疑問，為什麼列式存儲會廣泛地應用在 OLAP 領域，和行式存儲相比，它的優勢在哪裡？今天我們一起來對比下這兩種存儲方式的差別。

其實，列式存儲並不是一項新技術，最早可以追溯到 1983 年的論文 Cantor。然而，受限於早期的硬體條件和應用場景，傳統的事務型資料庫（OLTP）如 Oracle、MySQL 等關係型資料庫都是以行的方式來存儲數據的。

直到近幾年分析型資料庫（OLAP）的興起，列式存儲這一概念又變得流行，如 HBase、Cassandra 等大數據相關的資料庫都是以列的方式來存儲數據的。

行式存儲的原理與特點

對於 OLAP 場景，大多都是對一整行記錄進行增刪改查操作的，那麼行式存儲採用以行的行式在磁碟上存儲數據就是一個不錯的選擇。

當查詢基於需求欄位查詢和返回結果時，由於這些欄位都埋藏在各行數據中，就必須讀取每一條完整的行記錄，大量磁碟轉動定址的操作使得讀取效率大大降低。

舉個例子，下圖為員工信息emp表。

數據在磁碟上是以行的形式存儲在磁碟上，同一行的數據緊挨著存放在一起。

對於 emp 表，要查詢部門 dept 為 A 的所有員工的名字。

select name from emp where dept = A

由於 dept 的值是離散地存儲在磁碟中，在查詢過程中，需要磁碟轉動多次，才能完成數據的定位和返回結果。

列式存儲的原理與特點

對於 OLAP 場景，一個典型的查詢需要遍歷整個表，進行分組、排序、聚合等操作，這樣一來行式存儲中把一整行記錄存放在一起的優勢就不復存在了。而且，分析型 SQL 常常不會用到所有的列，而僅僅對其中某些需要的的列做運算，那一行中無關的列也不得不參與掃描。

然而在列式存儲中，由於同一列的數據被緊挨著存放在了一起，如下圖所示。

那麼基於需求欄位查詢和返回結果時，就不許對每一行數據進行掃描，按照列找到需要的數據，磁碟的轉動次數少，性能也會提高。

還是上面例子中的查詢，由於在列式存儲中 dept 的值是按照順序存儲在磁碟上的，因此磁碟只需要順序查詢和返回結果即可。

列式存儲不僅具有按需查詢來提高效率的優勢，由於同一列的數據屬於同一種類型，如數值類型，字元串類型等，相似度很高，還可以選擇使用合適的編碼壓縮可減少數據的存儲空間，進而減少IO提高讀取性能。

總的來說，行式存儲和列式存儲沒有說誰比誰更優越，只能說誰更適合哪種應用場景。

非常歡迎大家加我微信：Abox_0226，備註「進群」，有關大數據技術的問題在群里一起探討。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

WSL安裝及配置圖形界面

鏡像下載、功能變數名稱解析、時間同步請點擊阿裡雲開源鏡像站 1.下載WSL Ubuntu 打開微軟商店，搜索linux，找到Ubuntu並下載 2.安裝WSL Ubuntu 下載完成以後先不要安裝，因為預設安裝位置是在c盤，此時在其他盤新建一個文件夾，打開C:\Program Files\WindowsA ...
win7某些程式字體亂碼解決教程

##方法一： ###1、首先打開控制面板，然後將右側的查看方式設置為大圖標，接著選擇區域和語言。 ###2、進入到界面之後，先定位到上方的格式，接著把格式設置為中文。 ###3、之後再定位到上方的位置，選擇中國。 ###4、接著再定位到上方的管理選項，然後點擊更改系統區域設置。 ###5、接著在彈出 ...
linux命令_rpm

rpm命令 rpm（英文全拼：redhat package manager）原本是 Red Hat Linux 發行版專門用來管理 Linux 各項套件的程式，由於它遵循 GPL 規則且功能強大方便，因而廣受歡迎。逐漸受到其他發行版的採用。RPM 套件管理方式的出現，讓 Linux 易於安裝，升級 ...
centos換源+安裝postgresql

鏡像下載、功能變數名稱解析、時間同步請點擊阿裡雲開源鏡像站 centos換源+安裝postgresql http://mirror.nsc.liu.se/centos-store/8.2.2004/isos/x86_64/ 鏡像安裝網站 https://mirrors.edge.kernel.org/pu ...
Macrium Reflect 取代ghost

本文例子參考《STM32單片機開發實例——基於Proteus虛擬模擬與HAL/LL庫》源代碼：https://github.com/LanLinnet/STM33F103R6 項目要求實現通過串口助手發送單位元組數據，單片機收到數據後，交換高4位與低4位，將新的數據通過串口發回串口助手。例如，串口 ...
Docker基本命令

前言：這是《VMware 虛擬機圖文安裝和配置 Rocky Linux 8.5 教程》一文的姐妹篇教程，如果你需要閱讀它，請點擊這裡。 2020 年，CentOS 宣佈：計劃未來將重心從 CentOS Linux 轉移到 CentOS Stream。CentOS 8 的生命周期已於 2021 年 ...
大數據Hadoop之——Azkaban API詳解

一、Azkaban API概述通常，企業里一般不用使用web UI去設置或者執行任務，只是單純的在頁面上查看任務或者排查問題，更多的是通過Azkaban API去提交執行任務計劃。Azkaban提供了一些常用的API操作，可以通過curl或其他HTTP請求客戶端訪問。但是API調用都需要首先進行適 ...
楊玉基：知識圖譜在美團推薦場景中的應用

導讀：美團是一個生活服務領域的平臺，需要大量知識來理解用戶的搜索意圖，同時對於商家側我們也需要利用現有的知識對海量信息進行挖掘與提取，進而優化用戶體驗。今天分享的主題是知識圖譜在美團推薦場景中的應用。主要包括以下幾方面內容：美團知識圖譜介紹美團推薦場景介紹美團推薦中的知識應用總結與展望 - ...