數據剖析更靈活、更快捷,火山引擎 DataLeap 動態探查全面升級

来源:https://www.cnblogs.com/bytedata/archive/2023/05/11/17391095.html
-Advertisement-
Play Games

更多技術交流、求職機會,歡迎關註位元組跳動數據平臺微信公眾號,回覆【1】進入官方交流群 近期,火山引擎 DataLeap 上線“動態探查”能力,為用戶提供全局數據視角、完善的抽樣策略,提高數據探查的靈活度以及響應速率。 傳統的數據探查是基於庫表的全量探查,由後端引擎執行,通過自動化檢查數據成分、關係、 ...


更多技術交流、求職機會,歡迎關註位元組跳動數據平臺微信公眾號,回覆【1】進入官方交流群

近期,火山引擎 DataLeap 上線“動態探查”能力,為用戶提供全局數據視角、完善的抽樣策略,提高數據探查的靈活度以及響應速率。

傳統的數據探查是基於庫表的全量探查,由後端引擎執行,通過自動化檢查數據成分、關係、格式等,以報告形式展示探查後列的統計分佈結果,避免數據質量導致項目開發、上線出現問題,主要應用於元數據管理、數據研發、數倉開發以及數據治理等環節,滿足使用者對數據質量初探的需求。

但在數據量級大、用戶需要探查數據明細或需要數據預處理操作時,由於傳統的數據探查要對全量表進行檢測,導致無法實時產出報告、等待時間變長,靈活度低,且無法跟蹤數據明細。

針對上述痛點,火山引擎 DataLeap 在傳統數據探查基礎能力上,進一步增強了動態探查能力。其特點在於:

  • 基於大數據預覽探查,支持對數據進行函數級別預處理。

  • 數據探查結果秒級更新、實時響應。

  • 與數據監控聯動,有效打通數據探查到質量分析閉環。

據介紹,DataLeap 動態探查的對象是抽樣數據,支持連續抽樣(按照預設順序連續抽樣前 x 條數據)、過濾抽樣(使用 where 過濾語句過濾)、隨機抽樣(隨機抽樣 x 條數據)3 種模式,用戶可對數據進行預處理,實時、動態獲得統計分佈結果,具備靈活度高、實效性強的特點。

火山引擎 DataLeap 動態探查使用流程

 

除此之外,DataLeap 動態探查具備對探查結果基礎分析能力,包含列刪除、過濾、排序等。用戶對探查結果的每一次操作都會被記作一次操作,多次操作串聯成操作棧,DataLeap 支持用戶自由修改或刪減操作棧里的步驟,並實時查看最新結果。

火山引擎 DataLeap 動態探查操作棧

 

火山引擎 DataLeap 數據探查報告

 

目前,DataLeap 動態探查可以應用在以下三個場景中:

  • 場景 1:用於分析型探查場景,用戶可利用 hive 基本函數,如 get_json_object,將列進行數據提取。

  • 場景 2:與探查報告打通,用戶點擊探查報告中的統計值,即可跳轉到數據表格,並應用具體行過濾函數。

  • 場景 3:用於數據過濾後的探查場景,用戶通過過濾和分組條件進行寫條件探查,例如校驗 status=0 時 current_price 為 0 的占比。

 

DataLeap 是火山引擎數智平臺旗下產品,提供數據集成、開發、運維、治理、資產、安全等能力,幫助用戶提升數據研發效率、降低管理成本,加速推動企業的數字化轉型,目前已經應用於泛互聯網、製造、新零售、汽車等領域。

 

點擊跳轉火山引擎DataLeap瞭解更多


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前言 平時大家創建項目基本上都是藉助開發工具創建,比如visual studio,visual studio code,今天我們在Linux系統上,通過命令行的形式創建.NET6項目。 版本介紹 系統版本:Ubuntu22.04 SDK版本:.NET6 安裝.NET環境 # 升級系統 sudo ap ...
  • 一、安裝 Mailx Ubuntu sudo apt-get install bsd-mailx CentOS7 yum -y install mailx 二、獲取郵箱授權碼 (解決報錯問題 535 Error: authentication failed, system busy) 以騰訊企業郵箱 ...
  • 本篇記錄在macOS系統下使用VS Code配置 GCC、GDB來搭建C/C++開發環境,首先要提前安裝好gcc和gdb,見前一篇博文 macOS下安裝gcc、gdb(親測可行) 安裝好gcc、gdb之後,接下來為VS Code配置文件使其可以調用gcc、gdb,macOS下的配置過程與Linux下 ...
  • 1 索引介紹 索引是一種幫助查詢語句能夠快速定位到數據的一種技術。索引的存儲方式有行存儲索引、列存儲索引和記憶體優化三種存儲方式: 行存儲索引,使用B+樹結構,行存儲指的是數據存儲格式為堆、聚集索引和記憶體優化表的表,用於OLTP場景。行存儲索引按順序排列的值列表,每個值都有指向其所在的數據頁面的指針。 ...
  • (資料庫定時備份winserver2012篇) 1 序言 數據是無價的,所以生產環境中定時備份資料庫顯得尤為重要。備份能防止伺服器故障、天災人禍和人為誤操作帶來的數據丟失。 上一篇文章我們說了Linux環境下的數據備份。這一篇就把之前留下的坑給填上了。 這一篇我們說一說winserver2012環境 ...
  • 隨著世界經濟由工業經濟向數字經濟轉型,數據逐步成為關鍵的生產要素,企業開始將數據作為一種戰略資產進行管理。數據從業務中產生,在IT系統中承載,要對數據進行有效治理,需要業務充分參與,IT系統確保遵從,這是一個非常複雜的系統工程。 數據治理架構 實踐證明,企業只有構築一套企業級的數據治理綜合體系,明確 ...
  • 開源之夏 2023 學生報名已經正式開啟!Apache DolphinScheduler 今年繼續參與開源之夏的活動,2023 年 4 月 29 日-6 月 3 日 15:00 UTC+8,同學們可以在開源之夏官網 https://summer-ospp.ac.cn/ 找到 Apache Dolph ...
  • 摘要:金山辦公攜手華為雲完成金山辦公自主研發的“WPS文檔中心系統”與華為雲GaussDB相互相容性測試認證,並獲得華為雲授予的《技術認證書》。 本文分享自華為雲社區《共築數字化未來 金山辦公攜手華為雲完成文檔中心和GaussDB適配》,作者:GaussDB 資料庫。 近日,金山辦公攜手華為雲完成金 ...
一周排行
    -Advertisement-
    Play Games
  • 1. 說明 /* Performs operations on System.String instances that contain file or directory path information. These operations are performed in a cross-pla ...
  • 視頻地址:【WebApi+Vue3從0到1搭建《許可權管理系統》系列視頻:搭建JWT系統鑒權-嗶哩嗶哩】 https://b23.tv/R6cOcDO qq群:801913255 一、在appsettings.json中設置鑒權屬性 /*jwt鑒權*/ "JwtSetting": { "Issuer" ...
  • 引言 集成測試可在包含應用支持基礎結構(如資料庫、文件系統和網路)的級別上確保應用組件功能正常。 ASP.NET Core 通過將單元測試框架與測試 Web 主機和記憶體中測試伺服器結合使用來支持集成測試。 簡介 集成測試與單元測試相比,能夠在更廣泛的級別上評估應用的組件,確認多個組件一起工作以生成預 ...
  • 在.NET Emit編程中,我們探討了運算操作指令的重要性和應用。這些指令包括各種數學運算、位操作和比較操作,能夠在動態生成的代碼中實現對數據的處理和操作。通過這些指令,開發人員可以靈活地進行算術運算、邏輯運算和比較操作,從而實現各種複雜的演算法和邏輯......本篇之後,將進入第七部分:實戰項目 ...
  • 前言 多表頭表格是一個常見的業務需求,然而WPF中卻沒有預設實現這個功能,得益於WPF強大的控制項模板設計,我們可以通過修改控制項模板的方式自己實現它。 一、需求分析 下圖為一個典型的統計表格,統計1-12月的數據。 此時我們有一個需求,需要將月份按季度劃分,以便能夠直觀地看到季度統計數據,以下為該需求 ...
  • 如何將 ASP.NET Core MVC 項目的視圖分離到另一個項目 在當下這個年代 SPA 已是主流,人們早已忘記了 MVC 以及 Razor 的故事。但是在某些場景下 SSR 還是有意想不到效果。比如某些靜態頁面,比如追求首屏載入速度的時候。最近在項目中回歸傳統效果還是不錯。 有的時候我們希望將 ...
  • System.AggregateException: 發生一個或多個錯誤。 > Microsoft.WebTools.Shared.Exceptions.WebToolsException: 生成失敗。檢查輸出視窗瞭解更多詳細信息。 內部異常堆棧跟蹤的結尾 > (內部異常 #0) Microsoft ...
  • 引言 在上一章節我們實戰了在Asp.Net Core中的項目實戰,這一章節講解一下如何測試Asp.Net Core的中間件。 TestServer 還記得我們在集成測試中提供的TestServer嗎? TestServer 是由 Microsoft.AspNetCore.TestHost 包提供的。 ...
  • 在發現結果為真的WHEN子句時,CASE表達式的真假值判斷會終止,剩餘的WHEN子句會被忽略: CASE WHEN col_1 IN ('a', 'b') THEN '第一' WHEN col_1 IN ('a') THEN '第二' ELSE '其他' END 註意: 統一各分支返回的數據類型. ...
  • 在C#編程世界中,語法的精妙之處往往體現在那些看似微小卻極具影響力的符號與結構之中。其中,“_ =” 這一組合突然出現還真不知道什麼意思。本文將深入剖析“_ =” 的含義、工作原理及其在實際編程中的廣泛應用,揭示其作為C#語法奇兵的重要角色。 一、下劃線 _:神秘的棄元符號 下劃線 _ 在C#中並非 ...