Doris記錄服務介面調用情況

来源:https://www.cnblogs.com/bring-data/archive/2022/06/12/16367472.html
-Advertisement-
Play Games

1.下載安裝包 1.1 下載elasticsearch 7.13.3 curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.13.3-linux-x86_64.tar.gz 1.2 解壓文件 t ...


背景

  1. 公司的一個項目,需要記錄某個介面的訪問pv、uv,並且不能丟失明細數據,需要記錄【用戶,調用介面,調用詳情,調用時間,調用次數】
  2. 之前使用MySQL記錄,每來一條記錄一條,例如: insert into log (id, user_id, resource_id, stat_date, view_count) values (default, user_id, view_id, '2022-06-11', 1)
  3. 存在的問題是
  • 沒過多久MySQL中數據量級就到達千萬,沒法在毫秒的時間內返回結果
  • 使用MySQL中的明細數據進行聚合分析也非常的慢

Doris聚合模型

  1. 首先簡單介紹下Doris,它是一個MPP資料庫,一般是數據倉庫進行多維分析使用,導入明細數據,通過創建物化視圖的方式可以實現亞秒級別多維查詢
  2. 發現Doris的Aggregate模型非常符合需求,聚合模型中存在聚合鍵,聚合類型,表中所有的欄位必須是兩者其一,聚合鍵顧名思義,用來判斷唯一性,可以理解為關係型資料庫中的主鍵,聚合類型存在多種,SUM(求和),REPLACE(替換,保留最新),MAX(最大),MIN(最小)
  1. 演示聚合模型
  • 創建聚合表
CREATE TABLE IF NOT EXISTS  online_test.aggregate_table_name
(
   user_id INT DEFAULT '0' COMMENT '用戶唯一標識'
   ,event_id INT DEFAULT '0' COMMENT '事件唯一標識'
   ,real_name VARCHAR(20) REPLACE DEFAULT '' COMMENT '用戶真實名稱,可能發生變化,每次記錄最新'
   ,view_count INT SUM DEFAULT '0' COMMENT '統計用戶查看某個事件的總次數'
   ,start_time DATE MIN DEFAULT '1970-01-01' COMMENT '第一條記錄的時間、開始時間'
   ,end_time DATE MAX DEFAULT '1970-01-01' COMMENT '最後一條記錄的時間、結束時間'
)
AGGREGATE KEY(user_id, event_id)
DISTRIBUTED BY HASH(event_id) BUCKETS 10
PROPERTIES("replication_num" = "1");
  • 插入測試數據
insert into aggregate_table_name values
(1, 10, '張三', 1, '2022-06-12', '2022-06-12');
  • 查詢結果
  • 再次插入測試數據
insert into aggregate_table_name values
(1, 10, '張三豐', 1, '2022-06-13', '2022-06-13');
  • 再次查詢結果
  1. 解釋: 真實名從張三->張三豐是用戶進行了修改名稱操作,只保留最新的名字,查詢次數1->2是進行了求和計算,end_time從2022-06-12 -> 2022-06-13是每次記錄最大的日期,相當於是保留最新的

使用Doris統計服務質量

  1. 項目需要統計調用者,調用明細,調用時間,於是設計一個服務指標維度表,這樣通用性更高
CREATE TABLE IF NOT EXISTS online_test.metrics_dim_table_name
(
    `metrics_id` INT NOT NULL COMMENT "指標維度表唯一id標識",
    `metrics_type` VARCHAR(50) NOT NULL COMMENT "指標類型",
    `metrics_name` VARCHAR(50) NOT NULL COMMENT "指標名稱",
    `metrics_detail` VARCHAR(500) COMMENT "指標詳情"
)
UNIQUE KEY(`metrics_id`, `metrics_type`, `metrics_name`)
DISTRIBUTED BY HASH(metrics_id) BUCKETS 10
PROPERTIES("replication_num" = "1");

CREATE TABLE IF NOT EXISTS  online_test.metrics_calculate_table_name
(
    metrics_id INT DEFAULT '0' COMMENT '所屬指標id'
    ,unique_id VARCHAR(50) DEFAULT '' COMMENT '指標唯一標識、可以是id或者name'
    ,momo_id VARCHAR(20) DEFAULT '' COMMENT '查看者momoid'
    ,inspect_date VARCHAR(10) DEFAULT '' COMMENT '查看時間、格式為YYYY-MM-DD、按天聚合'
    ,inspect_num INT SUM DEFAULT '0' COMMENT '查看次數、聚合模式、記錄每個人每天查看某個指標多少次'
)
AGGREGATE KEY(metrics_id, unique_id, momo_id, inspect_date)
DISTRIBUTED BY HASH(unique_id) BUCKETS 10
PROPERTIES("replication_num" = "1");
  1. 例如我需要記錄信息查詢介面調用情況,我需要先在維度表中手動插入一條數據,記錄這個指標的詳細信息
insert into metrics_dim_table_name values 
(1, 'api', '/tableau/query_view', '用戶查詢tableau中視圖介面');
  1. 之後我在介面中埋點,每調用一次往doris中插入一條數據
insert into metrics_calculate_table_name values
(1, '1', '861893252', '2022-05-01', 1),
(1, '2', '861893252', '2022-05-01', 1),
(1, '2', '861893252', '2022-05-01', 1),
(1, '1', '861893252', '2022-05-02', 1);
  1. 聚合結果如下

使用Doris作為元數據

  1. 之後把doris當做關係型數據來使用,可以在毫秒內返回查詢結果,因為數據按天聚合過,數據量與MySQL相比也少了很多,針對這類需要都可以考慮使用doris聚合模型實現

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、創建新的database clickhouse創建資料庫的語法幾乎和其他的關係型資料庫是一樣的,區別就是clickhouse存在集群cluster和庫引擎engine的概念,可以根據需要進行指定。如果沒有特殊需求,預設即可。 CREATE DATABASE [IF NOT EXISTS] db_ ...
  • 異常和正常代碼性能旗鼓相當,但是全局過濾器對性能影響比較大,大概降低了60%左右,全局過濾器走了管道,但是這跟微軟官方的性能優化又有衝突,想必微軟官方也是出於對全局過濾器異常處理的考慮吧。同時對於添加了業務的情況下,這個降低會被稀釋,沒去做壓測對比哈,正常用戶體量還不至於被這個給影響到穩定性。所以怎... ...
  • 以下說明當匯流排上存在多個 DS18B20 晶元時, 識別各個 DS18B20 的編號併進行通信的演算法. 其實這是 1-Wire 匯流排的搜索演算法, 當 1-Wire 匯流排上掛接了多個設備時, 匯流排控制端需要通過 ROM Search 命令來判斷匯流排上存在的設備以及獲取他們的8位元組唯一ROM. 1-WI... ...
  • DS18B20 是一個常見的數字溫度計晶元, 因為測溫準確, 廉價且接線簡單, 實際應用廣泛, 在各種教學實驗套裝中出鏡率也很高. 在寫STC8H GPIO示例的時候寫了一下 DS18B20, 這個型號雖然簡單古老, 但是內容比較有意思, 一個篇幅寫不下, 所以把內容抽出來單獨介紹. ...
  • 通過在互聯網上收集及微軟官方網站等途徑獲取相關資料進行整理彙總出Microsoft SQL Server各個版本(SQL Server 2008 R2、SQL Server 2012、SQL Server 2014、SQL Server 2016、SQL Server 2017、SQL Server ...
  • Redis常見使用場景,緩存、數據共用分散式、分散式鎖、全局 ID、計數器、限流、位統計、購物車、時間線 Timeline、消息隊列、抽獎、點贊、簽到、打卡、商品標簽、商品篩選、用戶關註、推薦模型、排行榜. ...
  • **導讀:**本文是OPPO商業數據研發負責人&技術專家邱盛昌老師帶來的“OPPO商業化數據體系建設實踐”的分享。整體內容圍繞著下圖中垂直劃分的六個部分展開,分別為:數據平臺、數據接入、數據開發、數據治理、數據應用和數據分析,這個圖也概括了典型的數據體系的所有內容。 -- 01 數據平臺 數據平臺由 ...
  • 第一步:下載資料庫 通過shell工具,採用xftp功能 第二步:解壓數據包 mkdir mysql (在解壓之前創建文件夾) tar -xvf mysql-8.0.28-1.el8.x86_64.rpm-bundle.tar -C mysql 可以將解壓的文件放入到mysql文件夾中 第三步:安裝 ...
一周排行
    -Advertisement-
    Play Games
  • Dapr Outbox 是1.12中的功能。 本文只介紹Dapr Outbox 執行流程,Dapr Outbox基本用法請閱讀官方文檔 。本文中appID=order-processor,topic=orders 本文前提知識:熟悉Dapr狀態管理、Dapr發佈訂閱和Outbox 模式。 Outbo ...
  • 引言 在前幾章我們深度講解了單元測試和集成測試的基礎知識,這一章我們來講解一下代碼覆蓋率,代碼覆蓋率是單元測試運行的度量值,覆蓋率通常以百分比表示,用於衡量代碼被測試覆蓋的程度,幫助開發人員評估測試用例的質量和代碼的健壯性。常見的覆蓋率包括語句覆蓋率(Line Coverage)、分支覆蓋率(Bra ...
  • 前言 本文介紹瞭如何使用S7.NET庫實現對西門子PLC DB塊數據的讀寫,記錄了使用電腦模擬,模擬PLC,自至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1.Windows環境下鏈路層網路訪問的行業標準工具(WinPcap_4_1_3.exe)下載鏈接:http ...
  • 從依賴倒置原則(Dependency Inversion Principle, DIP)到控制反轉(Inversion of Control, IoC)再到依賴註入(Dependency Injection, DI)的演進過程,我們可以理解為一種逐步抽象和解耦的設計思想。這種思想在C#等面向對象的編 ...
  • 關於Python中的私有屬性和私有方法 Python對於類的成員沒有嚴格的訪問控制限制,這與其他面相對對象語言有區別。關於私有屬性和私有方法,有如下要點: 1、通常我們約定,兩個下劃線開頭的屬性是私有的(private)。其他為公共的(public); 2、類內部可以訪問私有屬性(方法); 3、類外 ...
  • C++ 訪問說明符 訪問說明符是 C++ 中控制類成員(屬性和方法)可訪問性的關鍵字。它們用於封裝類數據並保護其免受意外修改或濫用。 三種訪問說明符: public:允許從類外部的任何地方訪問成員。 private:僅允許在類內部訪問成員。 protected:允許在類內部及其派生類中訪問成員。 示 ...
  • 寫這個隨筆說一下C++的static_cast和dynamic_cast用在子類與父類的指針轉換時的一些事宜。首先,【static_cast,dynamic_cast】【父類指針,子類指針】,兩兩一組,共有4種組合:用 static_cast 父類轉子類、用 static_cast 子類轉父類、使用 ...
  • /******************************************************************************************************** * * * 設計雙向鏈表的介面 * * * * Copyright (c) 2023-2 ...
  • 相信接觸過spring做開發的小伙伴們一定使用過@ComponentScan註解 @ComponentScan("com.wangm.lifecycle") public class AppConfig { } @ComponentScan指定basePackage,將包下的類按照一定規則註冊成Be ...
  • 操作系統 :CentOS 7.6_x64 opensips版本: 2.4.9 python版本:2.7.5 python作為腳本語言,使用起來很方便,查了下opensips的文檔,支持使用python腳本寫邏輯代碼。今天整理下CentOS7環境下opensips2.4.9的python模塊筆記及使用 ...