Doris記錄服務介面調用情況

来源:https://www.cnblogs.com/bring-data/archive/2022/06/12/16367472.html
-Advertisement-
Play Games

1.下載安裝包 1.1 下載elasticsearch 7.13.3 curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.13.3-linux-x86_64.tar.gz 1.2 解壓文件 t ...


背景

  1. 公司的一個項目,需要記錄某個介面的訪問pv、uv,並且不能丟失明細數據,需要記錄【用戶,調用介面,調用詳情,調用時間,調用次數】
  2. 之前使用MySQL記錄,每來一條記錄一條,例如: insert into log (id, user_id, resource_id, stat_date, view_count) values (default, user_id, view_id, '2022-06-11', 1)
  3. 存在的問題是
  • 沒過多久MySQL中數據量級就到達千萬,沒法在毫秒的時間內返回結果
  • 使用MySQL中的明細數據進行聚合分析也非常的慢

Doris聚合模型

  1. 首先簡單介紹下Doris,它是一個MPP資料庫,一般是數據倉庫進行多維分析使用,導入明細數據,通過創建物化視圖的方式可以實現亞秒級別多維查詢
  2. 發現Doris的Aggregate模型非常符合需求,聚合模型中存在聚合鍵,聚合類型,表中所有的欄位必須是兩者其一,聚合鍵顧名思義,用來判斷唯一性,可以理解為關係型資料庫中的主鍵,聚合類型存在多種,SUM(求和),REPLACE(替換,保留最新),MAX(最大),MIN(最小)
  1. 演示聚合模型
  • 創建聚合表
CREATE TABLE IF NOT EXISTS  online_test.aggregate_table_name
(
   user_id INT DEFAULT '0' COMMENT '用戶唯一標識'
   ,event_id INT DEFAULT '0' COMMENT '事件唯一標識'
   ,real_name VARCHAR(20) REPLACE DEFAULT '' COMMENT '用戶真實名稱,可能發生變化,每次記錄最新'
   ,view_count INT SUM DEFAULT '0' COMMENT '統計用戶查看某個事件的總次數'
   ,start_time DATE MIN DEFAULT '1970-01-01' COMMENT '第一條記錄的時間、開始時間'
   ,end_time DATE MAX DEFAULT '1970-01-01' COMMENT '最後一條記錄的時間、結束時間'
)
AGGREGATE KEY(user_id, event_id)
DISTRIBUTED BY HASH(event_id) BUCKETS 10
PROPERTIES("replication_num" = "1");
  • 插入測試數據
insert into aggregate_table_name values
(1, 10, '張三', 1, '2022-06-12', '2022-06-12');
  • 查詢結果
  • 再次插入測試數據
insert into aggregate_table_name values
(1, 10, '張三豐', 1, '2022-06-13', '2022-06-13');
  • 再次查詢結果
  1. 解釋: 真實名從張三->張三豐是用戶進行了修改名稱操作,只保留最新的名字,查詢次數1->2是進行了求和計算,end_time從2022-06-12 -> 2022-06-13是每次記錄最大的日期,相當於是保留最新的

使用Doris統計服務質量

  1. 項目需要統計調用者,調用明細,調用時間,於是設計一個服務指標維度表,這樣通用性更高
CREATE TABLE IF NOT EXISTS online_test.metrics_dim_table_name
(
    `metrics_id` INT NOT NULL COMMENT "指標維度表唯一id標識",
    `metrics_type` VARCHAR(50) NOT NULL COMMENT "指標類型",
    `metrics_name` VARCHAR(50) NOT NULL COMMENT "指標名稱",
    `metrics_detail` VARCHAR(500) COMMENT "指標詳情"
)
UNIQUE KEY(`metrics_id`, `metrics_type`, `metrics_name`)
DISTRIBUTED BY HASH(metrics_id) BUCKETS 10
PROPERTIES("replication_num" = "1");

CREATE TABLE IF NOT EXISTS  online_test.metrics_calculate_table_name
(
    metrics_id INT DEFAULT '0' COMMENT '所屬指標id'
    ,unique_id VARCHAR(50) DEFAULT '' COMMENT '指標唯一標識、可以是id或者name'
    ,momo_id VARCHAR(20) DEFAULT '' COMMENT '查看者momoid'
    ,inspect_date VARCHAR(10) DEFAULT '' COMMENT '查看時間、格式為YYYY-MM-DD、按天聚合'
    ,inspect_num INT SUM DEFAULT '0' COMMENT '查看次數、聚合模式、記錄每個人每天查看某個指標多少次'
)
AGGREGATE KEY(metrics_id, unique_id, momo_id, inspect_date)
DISTRIBUTED BY HASH(unique_id) BUCKETS 10
PROPERTIES("replication_num" = "1");
  1. 例如我需要記錄信息查詢介面調用情況,我需要先在維度表中手動插入一條數據,記錄這個指標的詳細信息
insert into metrics_dim_table_name values 
(1, 'api', '/tableau/query_view', '用戶查詢tableau中視圖介面');
  1. 之後我在介面中埋點,每調用一次往doris中插入一條數據
insert into metrics_calculate_table_name values
(1, '1', '861893252', '2022-05-01', 1),
(1, '2', '861893252', '2022-05-01', 1),
(1, '2', '861893252', '2022-05-01', 1),
(1, '1', '861893252', '2022-05-02', 1);
  1. 聚合結果如下

使用Doris作為元數據

  1. 之後把doris當做關係型數據來使用,可以在毫秒內返回查詢結果,因為數據按天聚合過,數據量與MySQL相比也少了很多,針對這類需要都可以考慮使用doris聚合模型實現

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、創建新的database clickhouse創建資料庫的語法幾乎和其他的關係型資料庫是一樣的,區別就是clickhouse存在集群cluster和庫引擎engine的概念,可以根據需要進行指定。如果沒有特殊需求,預設即可。 CREATE DATABASE [IF NOT EXISTS] db_ ...
  • 異常和正常代碼性能旗鼓相當,但是全局過濾器對性能影響比較大,大概降低了60%左右,全局過濾器走了管道,但是這跟微軟官方的性能優化又有衝突,想必微軟官方也是出於對全局過濾器異常處理的考慮吧。同時對於添加了業務的情況下,這個降低會被稀釋,沒去做壓測對比哈,正常用戶體量還不至於被這個給影響到穩定性。所以怎... ...
  • 以下說明當匯流排上存在多個 DS18B20 晶元時, 識別各個 DS18B20 的編號併進行通信的演算法. 其實這是 1-Wire 匯流排的搜索演算法, 當 1-Wire 匯流排上掛接了多個設備時, 匯流排控制端需要通過 ROM Search 命令來判斷匯流排上存在的設備以及獲取他們的8位元組唯一ROM. 1-WI... ...
  • DS18B20 是一個常見的數字溫度計晶元, 因為測溫準確, 廉價且接線簡單, 實際應用廣泛, 在各種教學實驗套裝中出鏡率也很高. 在寫STC8H GPIO示例的時候寫了一下 DS18B20, 這個型號雖然簡單古老, 但是內容比較有意思, 一個篇幅寫不下, 所以把內容抽出來單獨介紹. ...
  • 通過在互聯網上收集及微軟官方網站等途徑獲取相關資料進行整理彙總出Microsoft SQL Server各個版本(SQL Server 2008 R2、SQL Server 2012、SQL Server 2014、SQL Server 2016、SQL Server 2017、SQL Server ...
  • Redis常見使用場景,緩存、數據共用分散式、分散式鎖、全局 ID、計數器、限流、位統計、購物車、時間線 Timeline、消息隊列、抽獎、點贊、簽到、打卡、商品標簽、商品篩選、用戶關註、推薦模型、排行榜. ...
  • **導讀:**本文是OPPO商業數據研發負責人&技術專家邱盛昌老師帶來的“OPPO商業化數據體系建設實踐”的分享。整體內容圍繞著下圖中垂直劃分的六個部分展開,分別為:數據平臺、數據接入、數據開發、數據治理、數據應用和數據分析,這個圖也概括了典型的數據體系的所有內容。 -- 01 數據平臺 數據平臺由 ...
  • 第一步:下載資料庫 通過shell工具,採用xftp功能 第二步:解壓數據包 mkdir mysql (在解壓之前創建文件夾) tar -xvf mysql-8.0.28-1.el8.x86_64.rpm-bundle.tar -C mysql 可以將解壓的文件放入到mysql文件夾中 第三步:安裝 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...