跳數索引

来源:https://www.cnblogs.com/dataleaner/archive/2023/11/21/17832423.html
-Advertisement-
Play Games

在 Doris 的存儲引擎規則: 表的數據是以分區為單位存儲的,不指定分區創建時,預設就一個分區. 用戶數據首先被劃分成若幹個分區(Partition),劃分的規則通常是按照用戶指定的分區列進行範圍劃分,比如按時間劃分。 在每個分區內,數據被進一步的按照Hash的方式分桶,分桶的規則是要找用戶指定的 ...


1、minmax

下麵是為url建立最大最小值的跳數索引
ALTER TABLE hits_UserID_URL ADD INDEX url_skipping_index URL TYPE minmax GRANULARITY 4;
ALTER TABLE hits_UserID_URL MATERIALIZE INDEX url_skipping_index;

  每4個顆粒創建用一個索引,這個索引存儲了url的最大值和最小值,在查詢執行過程中,ClickHouse 可以在不掃描列的情況下快速檢查列值是否超出範圍,並跳過不滿足最大最小值的顆粒塊。有點類似clickhouse建立多個主鍵。所以當列的值隨排序順序緩慢變化時,它的效果最好。

官網說可以使用優化

  • Creating a second table with a different primary key.用不同的主鍵建立多個表,這樣子的話那就考慮兩張表的數據同步問題,如果這樣實現可以試下物化視圖

     

  • Creating a materialized view on our existing table.建立物化視圖:比上一種我們不需要考慮兩張表的數據同步,物化視圖會自動同步。
    •  

  • Adding a projection to our existing table.建立投影(還不會,不知道怎麼評價)

 

這三種我都沒用過,感覺有點麻煩

鍵列之間的基數差越大,這些列在鍵中的順序就越重要。

 2、set:

ALTER TABLE skip_table ADD INDEX vix my_value TYPE set(100) GRANULARITY 2;
這種輕量級索引類型接受單個參數max_size,這種索引會將指定顆粒中的所有不同值存儲起來,如果不同值數量超過了max_size,該索引就不生效。
ClickHouse 在使用 where 條件查詢時,如果遇到了 set 類型的跳數索引,則會檢查 where 條件中的值是否在 set 集合中,如果不在就跳過這些顆粒。 適合聚集那種的,特別是枚舉的,例如省份 3、布隆過濾器

 布隆過濾器tokenbf_v1:

  這是按照token進行分詞的布隆過濾器索引,它會將長文本中的單詞按照非字母數字字元(如空格、數字、漢字)進行分詞,每個分詞就是一個token,然後這個token映射到布隆過濾器的bitmap中。

舉個例子, https://clickhouse.com/docs/en/engines/table-engines/mergetree-family/mergetree#table_engine-mergetree-data_skipping-indexes這個字元串,經過分詞後,會變成如下的token

['https', 'clickhouse', 'com', 'docs', 'en', 'engines', 'table', 'engines', 'mergetree', 'family', 'mergetree', 'table', 'engine', 'data', 'skipping', 'indexes']
從分詞中可以看出,比較死板,如果查詢條件中有特殊字元,索引就會失效
無法支持中文、數字
布隆過濾器ngrambf_v1:
ngrambf_v1和tokenbf_v1的區別在於不是按照token分詞而是按照長度分詞
舉個例子:Hell Flink;按照n=4分詞得到的是[Hell, Fli]
優點是:解決了特殊字元以及漢字的問題
缺點是:長度一旦確定就不好修改了,查詢的關鍵詞小於n,索引就不會生效。
ngrambf_v1比較適合提前知道查詢的sql,針對性設置n的值。如果n設置過小會出現假陽性過高的問題。

所以在使用跳數索引的時候一定要確認自己的索引生效,不然會有出現負優化。

 
CREATE TABLE ck_log_test(
  `logType` String,
  `@timestamp` DateTime64(3),
  `ip` String,
  `filePath` String,
  `cloudId` UInt64,
  `time` DateTime64(3),
  `id` String,
  `tms` UInt64,
  `rowNumber` UInt64,
  `value` String,
  `@storageTime` DateTime64(3),
  `fd` UInt64
) ENGINE = ReplicatedMergeTree() PARTITION BY toYYYYMMDD(`@timestamp`)
ORDER BY (`@timestamp`);
-- 建立索引
ALTER TABLE ck_log_test ADD INDEX idx_ngram3 value TYPE ngrambf_v1(48, 307200, 2, 0) GRANULARITY 1;
ALTER TABLE ck_log_test MATERIALIZE INDEX idx_ngram3;

EXPLAIN indexes = 1
SELECT count()
FROM ck_log_test
WHERE (value LIKE '%gfdsamnbvcxz-asdfghjkl-poiuytrewqlkjh-qwertyuiop%') AND (value LIKE '%[INFO]%');
┌─explain───────────────────────────────────────────┐
│ Expression ((Projection + Before ORDER BY))       │
│   Aggregating                                     │
│     Expression (Before GROUP BY)                  │
│       Filter (WHERE)                              │
│         ReadFromMergeTree (ck_log_test)           │
│         Indexes:                                  │
│           MinMax                                  │
│             Condition: true                       │
│             Parts: 9/9                            │
│             Granules: 12929/12929                 │
│           Partition                               │
│             Condition: true                       │
│             Parts: 9/9                            │
│             Granules: 12929/12929                 │
│           PrimaryKey                              │
│             Condition: true                       │
│             Parts: 9/9                            │
│             Granules: 12929/12929                 │
│           Skip                                    │
│             Name: idx_ngram3                      │
│             Description: ngrambf_v1 GRANULARITY 1 │
│             Parts: 9/9                            │
│             Granules: 1253/12929                  │
└───────────────────────────────────────────────────┘

分析執行計劃
首先是minmax 這個是在見表時的orderby 的欄位進行篩選的,因為沒有帶任何@timestamp所以還是完整的12929個塊
接著是Partition 數據都在一個分區,所以過濾不掉
接著是primaryKey,但是在建表中沒有顯式指定主鍵索引,所以用了order by 的欄位作為主鍵索引,也沒過濾掉
重頭戲來了:Skip 跳數索引,索引idx_ngram3是我們建立的,從12929個塊過濾剩下1253個塊。說明索引建立是生效的,也沒起到作用

  而且加索引是加快了讀的速率,但是卻影響了寫的效率。讀和寫的一個效率的綜合考慮去建立索引才是一個比較合適的方案。顧此失彼不是一個完美的選擇。

 
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • C#12中引入了新的語法糖來創建常見的集合。並且可以使用..來解構集合,將其內聯到另一個集合中。 支持的類型 數組類型,例如 int[]。 System.Span<T> 和 System.ReadOnlySpan<T>。 支持常見泛型集合,例如 System.Collections.Generic. ...
  • 本文簡介 隨著互聯網的快速發展,電商網站已經成為人們日常生活中不可或缺的一部分。而商城系統作為電商網站的核心,其重要性不言而喻。使用C#語言開源商城系統,可以輕鬆打造出穩定、安全的商城網站,為你的電商事業保駕護航。下麵推薦五款開源界出名的商城項目。 C#語言開源商城系統的優勢 跨平臺性 C#是一種跨 ...
  • 前言 一年多沒更新博客,上一次寫此系列還是四年前,雖遲但到,沒有承諾,主打隨性,所以不存在斷更,催更,哈哈,上一篇我們細究從請求到綁定詳細原理,本篇則是探討模型綁定細節,當一個問題產生到最終解決時,回過頭我們整體分析其產生背景以及設計思路才能有所獲。好了,廢話不多說,我們開始模型綁定細節之旅。 問題 ...
  • 目錄 普冉PY32系列(一) PY32F0系列32位Cortex M0+ MCU簡介 普冉PY32系列(二) Ubuntu GCC Toolchain和VSCode開發環境 普冉PY32系列(三) PY32F002A資源實測 - 這個型號不簡單 普冉PY32系列(四) PY32F002A/003/0 ...
  • Linux基本使用和常用命令 1、登錄Linux操作系統方式 1.圖形化界面 基於x window System顯示框架開發 由KDE(類似於蘋果系統)、GNOME.v.3.0 提供圖形化桌面環境 2.虛擬控制台 文本方式(Ctrl + Alt + F3) 3.Web網頁登錄 前提是需要打開網頁控制 ...
  • 本篇介紹一個基於 PY32F002A 和 XL2400 的低成本無線遙控實現. 7通道是指6個模擬通道加一個開關通道, 模擬通道受PY32F002A的PIN腳限制, 全部用上可以做到8個, 因為我想保留SWD口, 所以只做了6個. 普通應用只需要雙搖桿加兩個雙調節, 基本夠用了. 第七個通道是一組開... ...
  • 文章記錄了作者曲折的探索過程,最終成功將AMD cpu的Thinkbook 14p筆記本電腦從Windows11 21h2版本升級到了23h2版本,而且系統的應用配置和數據基本沒變。 ...
  • SQL DELETE 語句 SQL DELETE 語句用於刪除表中的現有記錄。 DELETE 語法 DELETE FROM 表名 WHERE 條件; 註意:在刪除表中的記錄時要小心!請註意DELETE語句中的WHERE子句。WHERE子句指定應刪除哪些記錄。如果省略WHERE子句,將會刪除表中的所有 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...