實時OLAP分析利器Druid介紹_ZenDei技術網路在線

項目早期、數據（報表分析）的生產、存儲和獲取業務，MySQL基本上可以滿足需要，但是隨著業務的快速增長，數據量翻至億為單位時，MySQL無法滿足例如：快速實時返回“分組+聚合計算+排序聚合指標”查詢需求。記得還是2017年之後，對當時的幾款OLAP進行了調研，用線上數據訓練。當時Druid在性能和功能上基本上能夠滿足需要，下麵介紹一下Apache Druid。

Druid介紹

Apache Druid 是一個高性能實時分析資料庫，在複雜的海量數據下進行互動式實時數據展現的OLAP工具。能夠處理TB級別數據，毫秒級響應。目前國內在使用的公司有：阿裡、滴滴、知乎、360、eBay，Hulu等。官方網址：http://druid.io

主要特性

開源、列式存儲，預聚合
實時流式和批量數據攝入
靈活的數據模式、支持SQL查詢
擴展方便，容易運維
TB，PB級別的數據處理

基礎概念

數據格式

數據源：datasource，datasource的結構有：時間列（timestamp）、維度列（Dimension）和指標列（Metric）

時間列：將時間相近的一些數據聚合在一起，查詢的時候指定時間範圍

維度列：標識一些統計的維度，比如：名稱、類別等

指標列：用於聚合和計算的列，比如：訪問總數、合計金額等

timestamp	demensions				metric
date	userid	username	age	sex	visits	costs
2020-01-01T00:00:00Z	100001	張三	20	男	201	20.10
2020-01-01T00:00:00Z	100002	李四	21	男	160	16.00
2020-01-01T00:00:00Z	100003	王五	20	女	100	10.00

數據攝入

同時支持流式和批量數據攝入。通常通過像 Kafka 這樣的消息匯流排（載入流式數據）或通過像 HDFS 這樣的分散式文件系統（載入批量數據）來連接原始數據源。

Druid 通過 Indexing 處理將原始數據以 segment 的方式存儲在數據節點，segment 是一種查詢優化的數據結構。

數據存儲

Druid 採用列式存儲。根據不同列的數據類型（string，number 等），Druid 對其使用不同的壓縮和編碼方式。Druid 也會針對不同的列類型構建不同類型的索引。

類似於檢索系統，Druid 為 string 列創建反向索引，以達到更快速的搜索和過濾。類似於時間序列資料庫，Druid 基於時間對數據進行智能分區，以達到更快的基於時間的查詢。

不像大多數傳統系統，Druid 可以在數據攝入前對數據進行預聚合。這種預聚合操作被稱之為 rollup，這樣就可以顯著的節省存儲成本。

數據查詢

支持兩種查詢：JSON-HTTP，SQL兩種方式

查詢類型

Timeseries:基於時間範圍查詢的類型

TopN:基於單維度的排名查詢

GroupBy:基於多維度的分組查詢

架構

運維

Druid是非常健壯的系統，Druid 擁有數據副本、獨立服務、自動數據備份和滾動更新，以確保長期運行，並保證數據不丟失。

OLAP方案對比

	Druid	Kylin	Elasticsearch	Spark SQL
數據規模	超大	超大	中等	超大
查詢效率	高	高	中等	低
併發度	高	高	高	低
SQL支持	中	高	中	高
靈活度	中	低	高	高

Druid：是一個實時處理時序數據的OLAP資料庫，因為它的索引首先按照時間分片，查詢的時候也是按照時間線去路由索引。

Kylin：核心是Cube，Cube是一種預計算技術，基本思路是預先對數據作多維索引，查詢時只掃描索引而不訪問原始數據從而提速。

ES：最大的特點是使用了倒排索引解決索引問題。根據研究，ES在數據獲取和聚集用的資源比在Druid高。

Spark SQL：基於Spark平臺上的一個OLAP框架，基本思路是增加機器來並行計算，從而提高查詢速度。

使用場景

廣告數據分析
風控分析
伺服器指標存儲
應用性能指標
實時線上分析系統 OLAP
實時報表分析
離線+實時數據源
行為數據分析

使用建議

時序化數據：所有行記錄中必須有日期指標
OLAP併發有限，不適合OLTP查詢，建議首次回源加Cache
目前不支持JOIN操作，不支持數據更新
離線數據替換前一天實時數據
分頁支持的不夠完善

另外、Druid在項目中已經投產多年，用OLAP方案解決業務上的問題，整理技術點為了方便相似業務同學參考和使用。

參考

https://druid.apache.org/docs/latest/design/

近期主題：

Druid在數據分析需求中的學習和應用
Druid多種應用場景的實戰
定時任務到分散式服務的演變

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

製作自己的Docker鏡像

製作鏡像有2種方式，一種是容器轉換成鏡像，另一種是使用dockerfile創建鏡像，一般後者更常用。容器轉為鏡像使用命令將容器轉換成鏡像需要轉移鏡像時，將該鏡像打成一個包在另一臺電腦載入這個鏡像時，載入這個包使用dockerfile創建鏡像（推薦） dockerfile是一個文本文件，包 ...
powershell 更新 IIS SSL 證書

最近發現我們開發環境的 IIS 上的 SSL 證書過期了，為了後面方便維護和更新，搞了一個 powershell 腳本，以後要更新的時候直接跑一下腳本就可以了，所以有了這篇文章 ...
Spire.Cloud 私有化部署教程（二）- Ubuntu 18.04 系統

本教程主要介紹如何在Ubuntu 18.04系統上實現Spire.Cloud私有化部署。CentOS 7系統部署請參考這篇教程。詳細步驟如下：一、環境配置 1、關閉防火牆 1）首先查看防火牆狀態 ufw status verbose （非管理員需在最前面加sudo）預設情況下，防火牆狀態是i ...
基本GCC，objdump，GBD命令的使用

基本GCC命令的使用 GCC是一套由GNU項目開發的編程語言編譯器，可處理C語言、 C++、Fortran、Pascal、Objective C、Java等等。GCC通常是跨平臺軟體的編譯器首選。gcc是GCC套件中的編譯驅動程式名。若電腦是x86 64位系統，為了編譯成IA 32指令集，則 ...
Linux學習筆記（三）目錄和文件都能操作的命令

目錄和文件都能操作的命令 rm cp mv rm 英文原意：remove files or directories 功能：刪除文件或目錄語法：rm 選項[ fir] 文件或目錄 cp 英文原意：copy files and directories 功能：複製文件和目錄語法：cp 選項[ adil ...
HBase協處理器載入的三種方式

本文主要給大家羅列了HBase協處理器載入的三種方式：Shell載入（動態）、Api載入（動態）、配置文件載入（靜態）。其中靜態載入方式需要重啟HBase。我們假設我們已經有一個現成的需要載入的協處理器Jar包： HelloCoprocessor 0.0.1.jar 。協處理器載入的三種方式 S ...
左匹配原則，聚集索引，回表查詢，索引覆蓋你真的懂了嗎

一個問題有一張表test，這張表除了主鍵id外，還有a，b, c 三列假設給這三個欄位建一個複合索引 index_abc (a, b, c)，問，下麵幾種查詢中，哪種查詢會用到索引 index_abc ？ 1. 查詢一 select * from test where a > 1000 and ...
SqlServer2008R2自動刪除備份

前言：當項目上線並穩定運行後，我們就需要考慮自動備份功能了，自動備份固然簡單，但是需要相應的自動刪除來配合使用。首先我們打開SqlServer管理工具(SSMS)，在左側目錄中找到管理-->右鍵維護計劃-->新建維護計劃雙擊左側下方目錄：創建 ”清除維護“ 任務雙擊後打開提示視窗，我們設置 ...