【clickhouse專欄】clickhouse性能為何如此卓越

来源:https://www.cnblogs.com/zimug/archive/2022/06/07/16350431.html
-Advertisement-
Play Games

在《clickhouse專欄》上一篇文章中《資料庫、數據倉庫之間的區別與聯繫》,我們介紹了什麼是資料庫,什麼是數據倉庫,二者的區別聯繫。clickhouse的定位是“數據倉庫”,所以理解了上一篇的內容,其實就能夠知道clickhouse適用於什麼樣的應用場景,不適合什麼樣的應用場景。 下麵本節我們就 ...


在《clickhouse專欄》上一篇文章中《資料庫、數據倉庫之間的區別與聯繫》,我們介紹了什麼是資料庫,什麼是數據倉庫,二者的區別聯繫。clickhouse的定位是“數據倉庫”,所以理解了上一篇的內容,其實就能夠知道clickhouse適用於什麼樣的應用場景,不適合什麼樣的應用場景。
下麵本節我們就來繼續為大家介紹clickhouse的一些非常有意義的特性,來幫助大家更深入的理解ck的應用場景,以及它為什麼被稱為“性能怪獸”。

目錄

一、列式數據存儲

clickhouse的性能之所以彪悍,其列式存儲設計是非常重要的原因之一。給大家舉一個例子,假如我們現在有一張學生信息表student

id name age
1 小紅 7
2 小明 8
3 lucy 7

如果這張表採用行式數據存儲,其在磁碟上的結構是下麵這樣的:

如果這張表採用列式數據存儲,其在磁碟上的結構是下麵這樣的:

對比上面的兩張圖我們可以看到,採用列式存儲的優點。

  • 比如:我們查詢學生年齡的最大值,列式數據存儲只需要定位到年齡那一列的起始地址,然後順序讀取數據進行排序計算即可。而行式數據存儲的方式,因為年齡這一欄位的數據單元不是連續的,需要根據索引不斷的定址,或者全表掃描才能獲取到所有的年齡數據。所以在採用列式存儲時,我們需要針對某一列進行查詢過濾、統計計算性能就遠勝於行式數據存儲方式
  • 另外,因為資料庫的設計一列的數據通常是同一種數據類型,列式數據存儲有比行式存儲高達10倍以上的壓縮比,節省了大量的磁碟及記憶體空間,可以有效降低伺服器成本。

二、支持SQL並且性能卓越

目前開源世界里的大部分的列式存儲資料庫是不支持SQL的,即使很多號稱支持SQL,其實支持SQL也是偽SQL,並且支持能力有限。

但是經過筆者的實驗,clikhouse對於標準SQL的支持已經可以與傳統的關係型資料庫媲美,雖然對於數據倉庫click house,我更建議大家使用寬表進行數據存儲,但是不代表ck不具備多表關聯查詢的能力。

可以訪問:https://clickhouse.com/benchmark/dbms/ ,獲取click house官方線上的針對各種數據統計型SQL的性能對比。

三、分散式分片存儲集群

clikhouse不僅支持單機模式,也支持分散式分片數據存儲的集群模式。數據以分片的行式,存儲在多台伺服器節點上面,因此ck可以利用集群伺服器的規模計算能力,快速的做出數據統計結果的響應。ck數據分片分散式存儲的機制,使得clickhouse具備了橫向擴展,海量數據分析處理的能力。

數據分片包括很多的方式,比如:數據隨機寫入不同伺服器分片存儲上、數據被髮往指定的伺服器分片存儲之上、數據按照hash值進行分片、當然我們還可以自定義數據分片的方式。

分散式數據存儲將數據分散到集群內的各個伺服器上(以分片(shard)的行式存在),為了保證數據的安全,每一個分片又有多個副本(replica),副本也是分散式存儲的,這樣即使部分伺服器宕機,仍然可以保障ck集群可用。

四、 支持按序存儲

與傳統的RMDB資料庫不同的是,clickhouse支持在建表的時候就通過sort by關鍵字指定排序欄位。這樣在數據入表的時候,實際是先進行了排序操作,按照排序欄位進行排序後的數據有序存放。
後續在進行數據查詢、過濾、統計的時候,就能夠有效的、快速的獲取連續的數據塊中的數據,提升查詢統計的性能。這種按序存儲的特性其實還是有非常廣泛的應用場景的,比如:股票K線圖都是按照交易日時間排序的,預設排序欄位、按序存儲有效的提升了統計性能。

五、支持數據TTL

在數據統計分析的資料庫中,通常我們需要數據TTL能力,也就是說:某些數據達到一定的存儲周期之後自動刪除。ck就提供了這種能力,降低了系統運維人員的工作難度。

ck支持以下幾種粒度的TTL

  • 列級別TTL:為某一列設置TTL時間,當這一列中的部分數據過期之後,列值會被自動替換為預設值,全部數據過期之後會自動刪除該列。
  • 行級別TTL:為某一行設置TTL時間,當某一行過期後,會直接刪除該行。
  • 分區級別TTL:ck支持數據分區並設置TTL時間,當分區過期後,會直接刪除該分區。

推薦閱讀

限於博文篇幅,更多精彩內容我就不一一列舉了,推薦閱讀
《原創精品視頻及配套文檔:springboot-已錄製97節(免費)》
等等等等


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 來源公眾號:SQL資料庫運維 原文鏈接:https://mp.weixin.qq.com/s?__biz=MzI1NTQyNzg3MQ==&mid=2247485400&idx=1&sn=432b580ed77224bf883db109cb7767b4&chksm=ea3753a8dd40dabed ...
  • 鎖 併發事務可能出現的情況: 讀-讀事務併發:此時是沒有問題的,讀操作不會對記錄又任何影響。 寫-寫事務併發:併發事務相繼對相同的記錄做出改動,因為寫-寫併發可能會產生臟寫的情況,但是沒有一個隔離級別允許臟寫的情況發生。MySQL使用鎖的機制來控制併發情況下讓事務對一條記錄進行排隊修改,只有對記錄修 ...
  • 開心一刻 有個問題一直困擾著我:許仙選擇了救蛇,為什麼楊過卻選擇救雕(而不救蛇) 後面想想,其實楊過救神雕是有原因的,當年神雕和巨蛇打架的時候 雕對楊過說:殺蛇,殺蛇,殺蛇! 蛇對楊過說:殺雕,殺雕,殺雕! 楊過果斷選擇了殺蛇 業務場景 業務描述 業務上有這樣的需求,張三、李四兩個用戶,如果互相關註 ...
  • 華為運動健康服務(HUAWEI Health Kit)允許三方生態應用在獲取用戶授權後,通過REST API介面訪問資料庫,讀取華為和生態伙伴開放的運動健康數據或寫入數據到華為運動健康服務,為用戶提供更加個性化的健康改善服務。如運動類App在獲取授權碼後可以讀取華為用戶的心率、步數等運動數據,最終給 ...
  • 前言 ​ 將本地存儲的事件數據同步到伺服器,然後經過服務端的存儲、抽取、分析和展示,充分發揮數據真正的價值。 一、數據同步 第一步:在 SensorsSDK 項目中,新增 SensorsAnalyticsNetwork 工具類,並新增 serverURL 用於保存伺服器 URL 地址 #import ...
  • 標簽+元素 1.標題標簽 段落標簽<h1> 一級標題 <h1><h2> 二級標題 <h2><h3> 三級標題 <h3><h4> 四級標題 <h4><h5> 五級標題 <h5><h6> 六級標題 <h6> 2.段落標簽 <p> 我是一個段落標簽 </p> //不換行 3.容器標簽 <div> 這是頭部 ...
  • props中的children屬性 組件標簽只用有子節點的時候,props就會有該屬性; children的屬性跟props一樣的,值可以是任意值;(文本,React元素,組件,函數) 組件: <ClassCom> 傳遞的數據 </ClassCom> 這樣的組件標簽中就會有子節點 props中的ch ...
  • Srinath,科學家,軟體架構師。Apache Axis2項目的聯合創始人,Apache Software基金會的成員,WSO2流處理器(wso2.com/analytics)的聯席架構師。 Srinath通過不懈的努力最終總結出了30條架構原則,他主張架構師的角色應該由開發團隊本身去扮演,而不... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...