Doris記錄服務介面調用情況

来源:https://www.cnblogs.com/bring-data/archive/2022/06/12/16367472.html
-Advertisement-
Play Games

1.下載安裝包 1.1 下載elasticsearch 7.13.3 curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.13.3-linux-x86_64.tar.gz 1.2 解壓文件 t ...


背景

  1. 公司的一個項目,需要記錄某個介面的訪問pv、uv,並且不能丟失明細數據,需要記錄【用戶,調用介面,調用詳情,調用時間,調用次數】
  2. 之前使用MySQL記錄,每來一條記錄一條,例如: insert into log (id, user_id, resource_id, stat_date, view_count) values (default, user_id, view_id, '2022-06-11', 1)
  3. 存在的問題是
  • 沒過多久MySQL中數據量級就到達千萬,沒法在毫秒的時間內返回結果
  • 使用MySQL中的明細數據進行聚合分析也非常的慢

Doris聚合模型

  1. 首先簡單介紹下Doris,它是一個MPP資料庫,一般是數據倉庫進行多維分析使用,導入明細數據,通過創建物化視圖的方式可以實現亞秒級別多維查詢
  2. 發現Doris的Aggregate模型非常符合需求,聚合模型中存在聚合鍵,聚合類型,表中所有的欄位必須是兩者其一,聚合鍵顧名思義,用來判斷唯一性,可以理解為關係型資料庫中的主鍵,聚合類型存在多種,SUM(求和),REPLACE(替換,保留最新),MAX(最大),MIN(最小)
  1. 演示聚合模型
  • 創建聚合表
CREATE TABLE IF NOT EXISTS  online_test.aggregate_table_name
(
   user_id INT DEFAULT '0' COMMENT '用戶唯一標識'
   ,event_id INT DEFAULT '0' COMMENT '事件唯一標識'
   ,real_name VARCHAR(20) REPLACE DEFAULT '' COMMENT '用戶真實名稱,可能發生變化,每次記錄最新'
   ,view_count INT SUM DEFAULT '0' COMMENT '統計用戶查看某個事件的總次數'
   ,start_time DATE MIN DEFAULT '1970-01-01' COMMENT '第一條記錄的時間、開始時間'
   ,end_time DATE MAX DEFAULT '1970-01-01' COMMENT '最後一條記錄的時間、結束時間'
)
AGGREGATE KEY(user_id, event_id)
DISTRIBUTED BY HASH(event_id) BUCKETS 10
PROPERTIES("replication_num" = "1");
  • 插入測試數據
insert into aggregate_table_name values
(1, 10, '張三', 1, '2022-06-12', '2022-06-12');
  • 查詢結果
  • 再次插入測試數據
insert into aggregate_table_name values
(1, 10, '張三豐', 1, '2022-06-13', '2022-06-13');
  • 再次查詢結果
  1. 解釋: 真實名從張三->張三豐是用戶進行了修改名稱操作,只保留最新的名字,查詢次數1->2是進行了求和計算,end_time從2022-06-12 -> 2022-06-13是每次記錄最大的日期,相當於是保留最新的

使用Doris統計服務質量

  1. 項目需要統計調用者,調用明細,調用時間,於是設計一個服務指標維度表,這樣通用性更高
CREATE TABLE IF NOT EXISTS online_test.metrics_dim_table_name
(
    `metrics_id` INT NOT NULL COMMENT "指標維度表唯一id標識",
    `metrics_type` VARCHAR(50) NOT NULL COMMENT "指標類型",
    `metrics_name` VARCHAR(50) NOT NULL COMMENT "指標名稱",
    `metrics_detail` VARCHAR(500) COMMENT "指標詳情"
)
UNIQUE KEY(`metrics_id`, `metrics_type`, `metrics_name`)
DISTRIBUTED BY HASH(metrics_id) BUCKETS 10
PROPERTIES("replication_num" = "1");

CREATE TABLE IF NOT EXISTS  online_test.metrics_calculate_table_name
(
    metrics_id INT DEFAULT '0' COMMENT '所屬指標id'
    ,unique_id VARCHAR(50) DEFAULT '' COMMENT '指標唯一標識、可以是id或者name'
    ,momo_id VARCHAR(20) DEFAULT '' COMMENT '查看者momoid'
    ,inspect_date VARCHAR(10) DEFAULT '' COMMENT '查看時間、格式為YYYY-MM-DD、按天聚合'
    ,inspect_num INT SUM DEFAULT '0' COMMENT '查看次數、聚合模式、記錄每個人每天查看某個指標多少次'
)
AGGREGATE KEY(metrics_id, unique_id, momo_id, inspect_date)
DISTRIBUTED BY HASH(unique_id) BUCKETS 10
PROPERTIES("replication_num" = "1");
  1. 例如我需要記錄信息查詢介面調用情況,我需要先在維度表中手動插入一條數據,記錄這個指標的詳細信息
insert into metrics_dim_table_name values 
(1, 'api', '/tableau/query_view', '用戶查詢tableau中視圖介面');
  1. 之後我在介面中埋點,每調用一次往doris中插入一條數據
insert into metrics_calculate_table_name values
(1, '1', '861893252', '2022-05-01', 1),
(1, '2', '861893252', '2022-05-01', 1),
(1, '2', '861893252', '2022-05-01', 1),
(1, '1', '861893252', '2022-05-02', 1);
  1. 聚合結果如下

使用Doris作為元數據

  1. 之後把doris當做關係型數據來使用,可以在毫秒內返回查詢結果,因為數據按天聚合過,數據量與MySQL相比也少了很多,針對這類需要都可以考慮使用doris聚合模型實現

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、創建新的database clickhouse創建資料庫的語法幾乎和其他的關係型資料庫是一樣的,區別就是clickhouse存在集群cluster和庫引擎engine的概念,可以根據需要進行指定。如果沒有特殊需求,預設即可。 CREATE DATABASE [IF NOT EXISTS] db_ ...
  • 異常和正常代碼性能旗鼓相當,但是全局過濾器對性能影響比較大,大概降低了60%左右,全局過濾器走了管道,但是這跟微軟官方的性能優化又有衝突,想必微軟官方也是出於對全局過濾器異常處理的考慮吧。同時對於添加了業務的情況下,這個降低會被稀釋,沒去做壓測對比哈,正常用戶體量還不至於被這個給影響到穩定性。所以怎... ...
  • 以下說明當匯流排上存在多個 DS18B20 晶元時, 識別各個 DS18B20 的編號併進行通信的演算法. 其實這是 1-Wire 匯流排的搜索演算法, 當 1-Wire 匯流排上掛接了多個設備時, 匯流排控制端需要通過 ROM Search 命令來判斷匯流排上存在的設備以及獲取他們的8位元組唯一ROM. 1-WI... ...
  • DS18B20 是一個常見的數字溫度計晶元, 因為測溫準確, 廉價且接線簡單, 實際應用廣泛, 在各種教學實驗套裝中出鏡率也很高. 在寫STC8H GPIO示例的時候寫了一下 DS18B20, 這個型號雖然簡單古老, 但是內容比較有意思, 一個篇幅寫不下, 所以把內容抽出來單獨介紹. ...
  • 通過在互聯網上收集及微軟官方網站等途徑獲取相關資料進行整理彙總出Microsoft SQL Server各個版本(SQL Server 2008 R2、SQL Server 2012、SQL Server 2014、SQL Server 2016、SQL Server 2017、SQL Server ...
  • Redis常見使用場景,緩存、數據共用分散式、分散式鎖、全局 ID、計數器、限流、位統計、購物車、時間線 Timeline、消息隊列、抽獎、點贊、簽到、打卡、商品標簽、商品篩選、用戶關註、推薦模型、排行榜. ...
  • **導讀:**本文是OPPO商業數據研發負責人&技術專家邱盛昌老師帶來的“OPPO商業化數據體系建設實踐”的分享。整體內容圍繞著下圖中垂直劃分的六個部分展開,分別為:數據平臺、數據接入、數據開發、數據治理、數據應用和數據分析,這個圖也概括了典型的數據體系的所有內容。 -- 01 數據平臺 數據平臺由 ...
  • 第一步:下載資料庫 通過shell工具,採用xftp功能 第二步:解壓數據包 mkdir mysql (在解壓之前創建文件夾) tar -xvf mysql-8.0.28-1.el8.x86_64.rpm-bundle.tar -C mysql 可以將解壓的文件放入到mysql文件夾中 第三步:安裝 ...
一周排行
    -Advertisement-
    Play Games
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...
  • 目錄前言PostgreSql安裝測試額外Nuget安裝Person.cs模擬運行Navicate連postgresql解決方案Garnet為什麼要選擇Garnet而不是RedisRedis不再開源Windows版的Redis是由微軟維護的Windows Redis版本老舊,後續可能不再更新Garne ...
  • C#TMS系統代碼-聯表報表學習 領導被裁了之後很快就有人上任了,幾乎是無縫銜接,很難讓我不想到這早就決定好了。我的職責沒有任何變化。感受下來這個系統封裝程度很高,我只要會調用方法就行。這個系統交付之後不會有太多問題,更多應該是做小需求,有大的開發任務應該也是第二期的事,嗯?怎麼感覺我變成運維了?而 ...
  • 我在隨筆《EAV模型(實體-屬性-值)的設計和低代碼的處理方案(1)》中介紹了一些基本的EAV模型設計知識和基於Winform場景下低代碼(或者說無代碼)的一些實現思路,在本篇隨筆中,我們來分析一下這種針對通用業務,且只需定義就能構建業務模塊存儲和界面的解決方案,其中的數據查詢處理的操作。 ...
  • 對某個遠程伺服器啟用和設置NTP服務(Windows系統) 打開註冊表 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\W32Time\TimeProviders\NtpServer 將 Enabled 的值設置為 1,這將啟用NTP伺服器功 ...
  • title: Django信號與擴展:深入理解與實踐 date: 2024/5/15 22:40:52 updated: 2024/5/15 22:40:52 categories: 後端開發 tags: Django 信號 松耦合 觀察者 擴展 安全 性能 第一部分:Django信號基礎 Djan ...
  • 使用xadmin2遇到的問題&解決 環境配置: 使用的模塊版本: 關聯的包 Django 3.2.15 mysqlclient 2.2.4 xadmin 2.0.1 django-crispy-forms >= 1.6.0 django-import-export >= 0.5.1 django-r ...
  • 今天我打算整點兒不一樣的內容,通過之前學習的TransformerMap和LazyMap鏈,想搞點不一樣的,所以我關註了另外一條鏈DefaultedMap鏈,主要調用鏈為: 調用鏈詳細描述: ObjectInputStream.readObject() DefaultedMap.readObject ...
  • 後端應用級開發者該如何擁抱 AI GC?就是在這樣的一個大的浪潮下,我們的傳統的應用級開發者。我們該如何選擇職業或者是如何去快速轉型,跟上這樣的一個行業的一個浪潮? 0 AI金字塔模型 越往上它的整個難度就是職業機會也好,或者說是整個的這個運作也好,它的難度會越大,然後越往下機會就會越多,所以這是一 ...
  • @Autowired是Spring框架提供的註解,@Resource是Java EE 5規範提供的註解。 @Autowired預設按照類型自動裝配,而@Resource預設按照名稱自動裝配。 @Autowired支持@Qualifier註解來指定裝配哪一個具有相同類型的bean,而@Resourc... ...