更多技術交流、求職機會,歡迎關註位元組跳動數據平臺微信公眾號,回覆【1】進入官方交流群 近期,火山引擎 DataLeap 上線“動態探查”能力,為用戶提供全局數據視角、完善的抽樣策略,提高數據探查的靈活度以及響應速率。 傳統的數據探查是基於庫表的全量探查,由後端引擎執行,通過自動化檢查數據成分、關係、 ...
更多技術交流、求職機會,歡迎關註位元組跳動數據平臺微信公眾號,回覆【1】進入官方交流群
近期,火山引擎 DataLeap 上線“動態探查”能力,為用戶提供全局數據視角、完善的抽樣策略,提高數據探查的靈活度以及響應速率。
傳統的數據探查是基於庫表的全量探查,由後端引擎執行,通過自動化檢查數據成分、關係、格式等,以報告形式展示探查後列的統計分佈結果,避免數據質量導致項目開發、上線出現問題,主要應用於元數據管理、數據研發、數倉開發以及數據治理等環節,滿足使用者對數據質量初探的需求。
但在數據量級大、用戶需要探查數據明細或需要數據預處理操作時,由於傳統的數據探查要對全量表進行檢測,導致無法實時產出報告、等待時間變長,靈活度低,且無法跟蹤數據明細。
針對上述痛點,火山引擎 DataLeap 在傳統數據探查基礎能力上,進一步增強了動態探查能力。其特點在於:
-
基於大數據預覽探查,支持對數據進行函數級別預處理。
-
數據探查結果秒級更新、實時響應。
-
與數據監控聯動,有效打通數據探查到質量分析閉環。
據介紹,DataLeap 動態探查的對象是抽樣數據,支持連續抽樣(按照預設順序連續抽樣前 x 條數據)、過濾抽樣(使用 where 過濾語句過濾)、隨機抽樣(隨機抽樣 x 條數據)3 種模式,用戶可對數據進行預處理,實時、動態獲得統計分佈結果,具備靈活度高、實效性強的特點。
火山引擎 DataLeap 動態探查使用流程
除此之外,DataLeap 動態探查具備對探查結果基礎分析能力,包含列刪除、過濾、排序等。用戶對探查結果的每一次操作都會被記作一次操作,多次操作串聯成操作棧,DataLeap 支持用戶自由修改或刪減操作棧里的步驟,並實時查看最新結果。
火山引擎 DataLeap 動態探查操作棧
火山引擎 DataLeap 數據探查報告
目前,DataLeap 動態探查可以應用在以下三個場景中:
-
場景 1:用於分析型探查場景,用戶可利用 hive 基本函數,如 get_json_object,將列進行數據提取。
-
場景 2:與探查報告打通,用戶點擊探查報告中的統計值,即可跳轉到數據表格,並應用具體行過濾函數。
-
場景 3:用於數據過濾後的探查場景,用戶通過過濾和分組條件進行寫條件探查,例如校驗 status=0 時 current_price 為 0 的占比。
DataLeap 是火山引擎數智平臺旗下產品,提供數據集成、開發、運維、治理、資產、安全等能力,幫助用戶提升數據研發效率、降低管理成本,加速推動企業的數字化轉型,目前已經應用於泛互聯網、製造、新零售、汽車等領域。