歡迎來到袋鼠雲07期產品功能更新報告!在瞬息萬變的市場環境中,袋鼠雲始終將客戶需求和反饋置於優化工作的核心位置,本期也針對性地推出了一系列實用性強的功能優化,以滿足客戶日益增長的業務需求。 以下為袋鼠雲產品功能更新報告07期內容,更多探索,請繼續閱讀。 離線開發平臺 新增功能更新 1.數據源引入支持 ...
歡迎來到袋鼠雲07期產品功能更新報告!在瞬息萬變的市場環境中,袋鼠雲始終將客戶需求和反饋置於優化工作的核心位置,本期也針對性地推出了一系列實用性強的功能優化,以滿足客戶日益增長的業務需求。
以下為袋鼠雲產品功能更新報告07期內容,更多探索,請繼續閱讀。
離線開發平臺
新增功能更新
1.數據源引入支持對接審批中心
背景:數據源的使用讓用戶走審批流程,而非只是由管理員分配,方便進行審計記錄。
新增功能說明:項目管理員、項目所有者角色可在數據源中心進行數據源的申請,數據源許可權經超級管理員、租戶所有者、租戶管理員審批通過後,引入數據源彈窗才會出現審批通過的數據源,項目管理員和項目所有者可以在項目中引入。
2.計算引擎功能完善
• Trino 支持 explain
• Trino、Inceptor、Oracle、SQLServer、MySQL 支持語法提示
• Inceptor、Oracle、SQLServer、MySQL 支持表聯想、支持血緣解析
• Oracle、SQLServer、MySQL 支持界面創建存儲過程、自定義函數、系統函數,支持任務依賴推薦,支持元數據同步和整庫同步
• 所有 SQL 的子查詢生效
3.所有 SQL 任務支持非同步運行
背景:目前我們的 RDB SQL 任務大部分採用的是同步運行,同步運行很可能會導致任務運行超時還未返回結果,考慮和 GP 一樣全部調整為非同步運行,優化用戶體驗。
新增功能說明:Spark SQL、Hive SQL、Trino SQL、Impala SQL、Inceptor SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Greenplum SQL、MySQL、SQL Server、Hana SQL、ADB SQL、StarRocks SQL、HashData SQL,所有 SQL 類任務支持非同步運行。
4.支持臨時運行停止,臨時運行停止和殺任務時支持從資料庫底層停止任務運行
背景:運維中心 RDB 類型殺任務,只是在界面上停止運行任務,並沒有在資料庫底層讓 SQL 停止運行,治標不治本。
新增功能說明:Spark SQL、Hive SQL、Trino SQL、Impala SQL、Inceptor SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Greenplum SQL、MySQL、SQL Server、Hana SQL、ADB SQL、StarRocks SQL、HashData SQL,運維中心殺任務時,資料庫底層也停止運行。
5.on yarn 任務日誌實時列印
• 運維中心任務日誌實時列印
範圍:周期任務實例、手動任務實例、補數據任務實例
任務類型:Spark SQL、Hive SQL、數據同步任務、HadoopMR、PySpark、Spark、Flink
• 臨時運行任務日誌實時列印
範圍:周期任務、手動任務、臨時查詢
任務類型:FileCopy、數據同步任務、Spark SQL、Hive SQL
• 原數據同步中的「錯誤記錄數」「讀取位元組數」等信息列印位置調整
6.分段運行時,展示每段 SQL 的執行進度,並展示當前執行的 SQL 內容
7.新增 Python on Agent 任務
背景:支持 Python on Agent 任務的原因主要有以下三點:
• agent 能跑的任務更多
• on yarn 查詢速率太慢了
• yarn 上跑 python 需要手動上傳很多包,影響效率
新增功能說明:支持新建 Python on Agent 任務,Python on Agent 任務將獨立在控制台配置的節點上運行,不會占用 yarn 的資源。
8.表查詢中的 GP 數據源,除了顯示集群下所有表,還支持僅顯示當前用戶有許可權的表
背景:目前 RDB 數據源,在離線項目中的表許可權是通過控制台綁定的集群資料庫地址控制的,所有角色和用戶擁有的許可權都一樣,無法做區分。
新增功能說明:
• 控制台支持按用戶去綁定 GP 資料庫賬號
• 離線新增「僅展示有許可權的表」按鈕,用戶可查看綁定的資料庫賬號下有許可權的表
• 表查詢中支持查看許可權範圍,例如 Select、Insert 等
9.新增 Shell 組件模版
10.開啟嚴格模式下的數據同步問題解決
背景:如果平臺單獨開啟了嚴格模式,平臺的 HiveSQL 中會要求指定分區,否則運行會報錯。但是,如果當前集群已經對接了數據安全,並且平臺的數據同步任務是通過 explain 語句來評估當前查詢用戶的許可權,如果實際用戶沒有分區欄位的查詢條件,數據同步任務也會因為沒有分區欄位的查詢條件而報錯。
Hive SQL 報錯客戶可以理解,因為自己開啟了嚴格模式,但是當對接數據安全後的數據同步任務報錯,這個其實是不符合邏輯的。
新增功能說明:新增了一個配置項。如果客戶是嚴格模式且關閉了 web 層許可權管控(對接數據安全/ranger),可以將這個配置項打開,則不會報錯。
11.數據同步支持源表為空校驗
背景:數據同步過程中,如果源表為空,則會向目標表寫入空數據。在某些客戶的場景下,這樣可能是合理的;但是在另一些客戶的場景下,源表可能是業務方的表,數據同步過程中並不清楚源表為空,也不希望源表的空數據去向目標表寫入。
新增功能說明:
數據來源高級配置中新增高級參數「checkTableEmpty」。
若為“true”,數據同步任務的臨時運行/周期實例運行/補數據實例運行/手動實例運行前檢查源表是否為空,如果為空則實例狀態為提交失敗(臨時運行為運行失敗)。若任務配置了告警,則告警中會包含失敗原因“任務已開啟源表為空不運行的校驗,源表${表名稱}為空”。
若為“false”,數據同步任務的臨時運行/周期實例運行/補數據實例運行/手動實例運行前源表為空時,任務正常運行。
12.新增發佈狀態
背景:用戶無法區分發佈頁面的對象是否已經打包發佈過,可能會造成部分任務重覆發佈,導致數據覆蓋。
新增功能說明:發佈頁面增加了「狀態」欄位,包含「已打包」和「未打包」兩種狀態,重新提交的「周期任務」「手動任務」等對象,狀態會變為「未打包」狀態。
13.支持 OushuDB 計算引擎
支持SQL開發、版本回滾、表查詢、語法提示、函數管理、存儲過程管理、血緣解析、組件等功能。
14.支持 GitLab 代碼倉庫同步
背景:許多客戶存在很多存量的代碼,但是沒有一種方便快捷的方式進行遷移。離線支持了 GitLab 代碼倉庫的拉取和推送後,客戶可以基於 GitLab 進行代碼遷移和代碼管理。
新增功能說明:支持通過賬號密碼或是個人訪問令牌的方式訪問遠端 GIt 倉庫,可以從項目層面或任務層面進行代碼的拉取和推送。
功能優化
1.數據預覽全局管控優化
背景:之前在數據源中心做了數據預覽管控的功能,可以針對單個數據源或全局進行數據預覽功能的管控。但之前僅管控到數據同步的數據預覽,離線產品需要進行優化,實現管控到表查詢和數據地圖的數據預覽。
體驗優化說明:meta 數據源根據數據源中心的預覽功能,實現了管控到離線產品的數據同步、表查詢、數據地圖的數據預覽等功能。
2.所有 SQL 任務的預設運行方式調整為整段運行
Hive SQL、Spark SQL、Greenplum SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Trino SQL、MySQL、SQL Server、Hana SQL、ADB SQL、HashData SQL、StarRocks SQL、Inceptor SQL、Impala SQL 所有 SQL 預設運行方式調整為整段運行。
3.臨時運行時記錄臟數據
臨時運行產生的臟數據表也需要記錄在臟數據管理中,並且對各種情況的臟數據表分區命名進行了優化:
• 臟數據臨時運行分區的命名規則:task_name=任務ID_test_instance/time=時間戳
• 臟數據周期實例分區的命名規則:task_name=任務ID_scheduled_instance/time=時間戳
• 臟數據手動實例分區的命名規則:task_name=任務ID_manual_instance/time=時間戳
臟數據補數據實例分區的命名規則:task_name=任務ID_temporary_instance/time=時間戳
4.表查詢和語法提示範圍優化
離線開發中的表查詢和語法提示範圍優化為資產元數據管理中所有的表(包含底層同步到資產的非 meta schema 的表)。
5.一鍵生成目標表功能優化
背景:目前我們在進行一鍵建表功能需求設計的時候,通常使用 varchar、string 等通用類型來覆蓋所有欄位類型,如果客戶有需求自行調整。但是實際上客戶的場景是複雜的,還涉及到數據精度等問題。因此我們在這個版本對常用數據源之間的欄位映射關係做了梳理修改,儘量讓客戶使用一鍵建表功能時能直接使用,無需再進行調整。
體驗優化說明:RDB->Hive,Hive->RDB,RDB->HANA,HANA->RDB,RDB->ADB,RDB->Doris 等數據同步中的一鍵生成目標表功能,支持欄位根據映射關係匹配。
6.切分鍵填寫優化
背景:「源表切分鍵」的填寫入口在「數據來源」時,客戶經常會漏填,併在「通道控制」頁面選擇了大於1的併發數,在執行任務後才報錯,客戶需要再去添加切分鍵,產品體驗差,效率低。
體驗優化說明:將「源表切分鍵」填寫入口從「數據來源」移至「通道控制」頁面;新增「開啟併發」按鈕,開啟後支持填寫源表切分鍵。
7.同步任務中選擇和其他同步任務相同的目標表時,會進行提示
背景:在一般的 ETL 場景中,一張表只會在一個數據同步中作為目標表存在,如果在多個同步任務中配置了同一個目標表,很有可能會造成數據丟失、數據覆蓋等問題。
體驗優化說明:在數據同步選擇目標表時,若選擇的目標表在當前租戶下的某些數據同步任務中已經作為目標表存在,則會進行提示,並告知任務名稱、任務責任人和所屬項目。
8.置成功、重跑、殺任務生效範圍調整
背景:目前置成功限制了特定狀態下的實例才可操作,實際置成功的主要目的是當依賴鏈路中出現了暫時無法快速修複的阻塞實例時,在某些情況下其下游實例如果對這個或這些實例不是強依賴並且不能延遲時,希望平臺提供一種強制或者臨時處理方式從而讓下游可以繼續跑起來。
導致這種阻塞的情況不止現在的失敗、取消,而是包含除“成功”外的所有狀態,因此,能夠支持置成功的實例為除“成功”狀態之外的所有狀態的實例;重跑同理,更加不用關心實例狀態。
體驗優化說明:
• 所有狀態的實例支持「置成功」
• 除運行中外所有狀態的實例支持「重跑」
• 等待提交、提交中、等待運行、正在運行、凍結狀態的實例支持「殺任務」
9.跨租戶/項目/產品的實例支持在離線運維中心運維
背景:補數據鏈路中若存在指標實例,指標實例出現失敗的情況,目前無法實現重跑操作。因為離線內暫不支持對其他產品實例的運維,導致修複處理非常麻煩。
體驗優化說明:跨租戶/項目/產品的實例支持在離線運維中心展示,支持「緊急去依賴」「終止」「置成功」「重跑」等操作。
10.實例置成功操作時,若綁定有質量任務,質量任務實例不執行
背景:置成功一般發生在當前任務暫時無法運行成功,但是下游要正常執行下去的情況。這種情況下當前任務一定存在問題,如果繼續走質量校驗沒有意義。
體驗優化說明:當對離線任務實例置成功時,如果有質量任務綁定,質量任務實例不執行。
11.實例依賴視圖優化
背景:任務依賴視圖和實例依賴視圖應該有所區分。任務依賴視圖展示任務間依賴關係;實例依賴視圖應該展示當前實例的依賴視圖,包含實例間依賴和跨周期依賴。這樣有助於用戶全鏈路查看實例依賴關係,理解運行流程。
體驗優化說明:運維中心實例依賴視圖,展示當前實例的跨周期依賴實例視圖。
實時開發平臺
新增功能更新
1.FlinkSQL 開發,Kafka ChunJun-json 支持自動映射
上個迭代已經支持了 OGG-JSON 的自動映射,本次迭代支持了實時平臺自身採集工具打到 Kafka 的格式(ChunJun-json)。
2.Kafka 讀取類型新增 Raw Format
如果你的 Kafka 中具有原始日誌數據,並希望使用 Flink SQL 讀取和分析此類數據時,需要用到 raw format。如:
47.29.201.179 - - [28/Feb/2019:13:17:10 +0000] "GET /?p=1 HTTP/2.0" 200 5316 "https://domain.com/?p=1" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36" "2.75"
如果讀取類型使用 raw format,請避免使用 upsert-kafka。因為 raw format 會將 null 值編碼成 byte[ ] 類型的 null,而在 upsert-kafka 中會將 null 視為刪除值的操作。
3.FlinkSQL 維表、結果表新增 Hyperbase 數據源
4.Flink1.12 中重構 PGWAL 插件
背景:Flink1.10 已支持過 PGWal 插件,之前插件遷移1.12的時候,漏測了 PGWal,目前在 Flink1.12 上測試發現存在比較大的問題。
新增功能說明:
5.Hive Catalog 支持開啟 keberos 認證;DT Catalog 中的 Flink 映射表,源表支持開啟 keberos 認證
表管理處的 Kerberos 認證,分為兩種程度:
• Catalog 的認證:此處是通過控制台的 Flink 組件維護 krb 文件。(如果 hive catalog 的 hms 也自帶 krb 認證文件,平臺不做校驗)
• Flink 映射表的認證:支持 Flink 映射表的源頭,如 kafka/hbase 數據源開啟 krb 認證。(用戶需要保障 Flink 開啟的 krb 認證和表數據源的 krb 一致,不然任務可能會運行失敗)
6.IDE 執行新增 Select 線上查詢能力
背景:之前數開人員排錯想要查看代碼邏輯,需要將結果列印到日誌中查看,操作成本較高。
新增功能說明:在 IDE 中可以對平臺中的 DT+hive catalog 表進行 select 查詢、執行 DDL 語句,結果在控制台進行查看,對於已停止的任務可以下載導出 csv 文件數據。
7.新增實時數倉 demo,支持自動造數據,運行全鏈路任務
背景:給客戶演示產品時需要配置數據源等信息,門檻較高。
新增功能說明:在演示產品時點一點按鈕就能自動造數據,並運行起全鏈路任務。點擊試運行後平臺將在任務運維自動生成並提交四個任務,在一小時後自動下線(點擊取消試運行直接刪除下線),這些任務不支持在任務運維界面進行操作。
8.新增代碼模板中心,支持使用系統內置模板以及創建自定義模板
實時平臺內置各種 FlinkSQL 場景的開發模版,方便開發理解、上手,也可以根據業務自己創建自定義模版,提高開發效率,模版支持直接引用到自己的任務上做調整。
9.其他新增功能
• 引擎版本:實時採集、FlinkSQL、Flink 和 PyFlink 任務的引擎選擇支持 Flink1.16 版本
• 產品 logo:產品 logo 和名稱從控制台的配置內容讀取,不再固定寫死
功能優化
1.Flink 版本查詢介面直接獲取控制台信息,平臺不維護
實時平臺幾個 Flink 版本選擇的地方,直接查詢控制台維護的數據,平臺自身不再寫死版本號。(如果控制台只添加了1.12,實時平臺只顯示1.12;如果控制台添加了1.12和1.10,實時平臺則顯示兩種)
2.【實時採集】嚮導模式中將前端的配置項抽象化
背景:如果要支持嚮導模式,每新增一個數據源,前端都需要開發一套配置項。用戶/定開團隊開發的自定義 connector,如果不進行前端定開,只能在腳本模式中使用。
體驗優化說明:在嚮導模式中將前端配置項抽象化,後端開發完自定義 connector+SQL 刷入前端配置項+少量/甚至沒有前端開發工作,完成一個自定義 connector 的開發應用。
3.其他功能優化
• Phoenix5.x:Flink1.12 版本支持 phoenix5.x sink 的選擇
• Kafka 集群:移除集群管理功能模塊,kafka 管理模塊後續的定位就是做 Topic 的增刪改查,不會提供集群管理相關的能力
• SDK 介面:新增根據任務查詢 sqltext 的介面;新增根據項目標識獲取項目信息的介面
數據資產平臺
新增功能更新
1.告警通道中的自定義告警通道支持顯示多通道
背景:業務中心配置多個自定義告警通道時資產平臺只展示一個,但實際發送告警時將對每個自定義告警通道進行告警信息發送,存在告警信息發送冗餘,且與其他子產品的邏輯不一致。
新增功能說明:對於自定義告警通道像其他子產品一樣顯示所有告警通道,且可選擇一個或多個進行告警信息的發送,修改範圍包括元數據訂閱、質量規則等所有涉及告警配置的位置。
2.數據模型支持 inceptor 建表
當前租戶的資產中存在自動引入的 inceptor meta 數據源時,可在數據模型--規範建表模塊進行 Inceptor 建表,支持配置表的基礎信息和表結構,其中配置表結構時新增支持對分桶欄位、分桶數配置。
若新建表已完成審批,在元數據查看時針對分桶欄位增加分桶標識展示。
3.【數據質量】質量規則對接資源組
在質量規則中,單表校驗和多表校驗中跑在 yarn 上的任務,以及實時校驗任務的調度屬性彈窗中新增資源組的必選項。
4.其他新增功能
• OushuDB 支持元數據同步和查看:離線對接了 OushuDB 引擎生成的 meta schema,資產支持自動引入,並支持元數據的同步和查看。
• 數據源:新增數據源支持 Hive_MRS、Trin
• 規範建表支持 AnalyticDB PostgreSQL 表
功能優化
1.規範建表數倉層級綁定資料庫邏輯優化
背景:一個數倉層級只能綁一個庫,實際用戶在數倉時可能存在跨庫多主題或者多主題單庫,需要數倉層級與庫的綁定關係更為靈活。
體驗優化說明:數倉層級與庫不再與資料庫配置綁定關係,規範建表時可在選擇數倉層級後另外選擇數據源。
2.Inceptor 表支持表血緣
3.表生命周期到期後處理方式調整
背景:資產數據模型和質量的臟數據表生命周期到期邏輯不一致,資產數據模型在表生命周期到期後將保存元數據信息,導致無用元數據信息不斷累積,元數據查詢性能受到影響;質量的臟數據表在生命周期到期後則會刪除元數據信息,僅 Hive 表支持了生命周期。
體驗優化說明:
資產數據模型中的表生命周期到期後也刪除元數據信息,即最後統一為:
例如將表生命周期設置為10天,則:
• 對於非分區表,當前日期 - 最後一次數據修改日期 > 10天後,平臺將自動刪除該表
• 對於分區表,當前日期 - 某分區最後一次數據修改日期 > 10天後,平臺將自動刪除該分區,分區全部刪除後表將被刪除
另外 Inceptor 表也支持了生命周期設置。
4.資產監聽離線 IDE 的 DDL 語句,SQL 解析後元數據變更實時更新在資產數據地圖
目前支持的 meta 數據源範圍:Hive、AnalyticDB PostgreSQL、TiDB、Inceptor、Hashdata、StarRocks
5.數據地圖優化
數據地圖查詢性能優化:每張表200個欄位,200w張表的元數據存儲,在數據地圖頁面查詢響應達到5s以內
血緣顯示內容優化:血緣中各節點內容包含表名、schema 名稱等顯示完整
6.其他體驗優化
• 離線刪除項目後資產自動引入的 meta 數據源將同步刪除
• Hive 元數據技術屬性增加表類型說明,可標識其為 Iceberg 表或者其他格式的表
• 數據脫敏優化:脫敏方式除覆蓋外另支持轉義和演算法加密,支持對指定人群脫敏/指定人群不脫敏,並支持按用戶組進行用戶範圍選擇
• 數據地圖遷移後,所有租戶下擁有離線產品許可權的用戶都自動增加資產平臺的訪客許可權
• 支持離線創建項目生成的 Oracle、SQL Server meta 數據源在資產平臺的自動授權
• 產品 Logo 可在業務中心統一配置
• 所有下拉框增加 loading 效果,質量校驗規則、任務、數據源管理、元數據管理、文件治理的列表篩選框增加模糊搜索
• 數據質量告警的告警top20增加告警時間的顯示
• 元數據同步優化:元數據模塊中的數據同步功能,在點擊列表中的立即同步操作後,在按鈕旁邊加狀態標識,避免重覆操作
數據服務平臺
新增功能更新
1.支持對接自定義角色
平臺角色管理中,admin、租戶所有者和租戶管理員可在租戶層為 API 創建自定義角色(可自由配置角色許可權點),此角色創建後會在該租戶的每個項目中存在。此外還可修改固定角色,如項目管理員、數據開發等的許可權點。
API 內的項目管理-角色管理中展示當前項目中的所有固定角色和自定義角色(僅查看不可編輯)。
2.Python 函數增加支持3.9版本
背景:python 主流版本分為2.x和3.x,數據服務之前僅支持 python2.7 是因為 Jython 執行框架僅支持到2.7版本且無法進行包含c語言的三方庫拓展。但是 python2.7 版本較老,大部分客戶用 python3.x 較多,且有拓展三方庫的需求。
新增功能說明:後續運維部署時預設增加3.9版本,2.7和3.9並存,2.7仍用 Jython 框架,3.9改為 Runtime 框架。通過 Runtime 調用 Python 程式與直接執行 Python 程式的效果是一樣的,所以其天然支持任意三方庫的依賴,同時可以在 Python 中讀取傳遞的參數,也可以在 Java 中讀取到 Python 的執行結果。
另外 api-server 服務增加了一個配置項,這裡我們提供的預設環境是沒有三方庫依賴的,客戶可替換為客戶環境的 python 可執行文件。
python3.exe.path = /opt/dtstack/DTGateway/Apiserver/python3/bin/python3.9
3.API 市場的調用預覽增加支持服務編排、註冊 API
功能優化
1.審計內容完善
支持了更加完善的關鍵操作審計,以下為部分:
2.安全組中的ip地址黑白名單校驗
背景:同一 API 所選的安全組黑白名單沒有做校驗,導致同一ip同時出現在一個 API 的安全組白名單和黑名單中。
體驗優化說明:API 在配置安全組時會對所選黑白名單進行ip地址是否衝突的校驗,如果衝突則無法添加成功;歷史已經存在衝突的情況,黑名單將生效。
3.註冊 API 返回結果是否帶平臺預設結構支持配置
背景:目前在數據服務註冊的 API 會外麵包一層內容,導致註冊以後的返回結果與原生 API 不一致。
體驗優化說明:後端增加一個配置項,可配置返回結果是否加上我們自己的內容,預設加上。
客戶數據洞察平臺
新增功能更新
1.產品名稱對接業務中心
背景:當前標簽產品名稱、logo 等信息是系統內置的,不可更改,但客戶根據自己實際需求會有需要變更的情況,此時需要我們配合做調整。為提高變更效率,將信息的配置統一對接到業務中心,客戶有需要時通過業務中心修改即可。
新增功能說明:
• 通過數棧首頁進入「頁面配置」界面,更新「客戶數據洞察設置」內的配置內容,配置頁面見下圖:
配置生效後,下述頁面內容將分別引用上方的特定設置。
(1)產品 loading 頁:使用「Loading 頁文案」的輸入文字、顏色
(2)標簽產品項目列表頁、系統內所有頁面左上角:使用「產品主頁左上角名稱」的輸入文字、顏色,「產品主頁左上角 icon」設置的圖片
(3)瀏覽器標簽欄:使用「瀏覽器標簽頁名稱」的輸入文字、「產品主頁左上角 icon」設置的圖片
• 通過數棧首頁進入「頁面配置」界面,更新「首頁設置」內的各功能模塊的名稱配置內容後,標簽內部關於子產品名稱的引用,將引用此處設置內容。首頁設置內容如下:
配置生效後,標簽產品內部引用位置,如項目列表中的項目空間關聯子產品,如下:
2.個體畫像支持文件導出
背景:根據標簽數據洞察用戶特點,需要將數據分享給其他業務人員做報告輸出。
新增功能說明:進入個體畫像頁面,通過模糊/精確匹配顯示搜索結果,點擊「畫像導出」可導出所有搜索結果。
導出結果將以PDF格式放至下載中心,可前往下載中心進行文件下載。若搜索結果大於2萬個,將根據用戶輸入的單文件存儲數量將數據分別存於多個PDF文件中,並壓縮成zip文件供用戶下載。
3.群組列表支持導出元數據信息
背景:梳理群組數量狀態,將數據分享給其他業務人員做報告輸出。
新增功能說明:進入群組管理頁面,點擊「群組元信息下載」可導出所有篩選後結果。導出結果將以CSV格式放至下載中心,可前往下載中心進行文件下載。
功能優化
1.【SQL優化】提升查詢效率
背景:Hive 表創建 SQL 中,涉及到 $partitions 參數引用,Trino 會進行全表掃描,從而占用大量記憶體空間。在現有功能上,需要縮短實體表的生命周期才能保證任務正常運行,需要對 SQL 進行優化從而實現在表生命周期長的情況下,任務依然可以正常運行。
體驗優化說明:
Trino SQL 中涉及 $partitions 的地方調整為子查詢,包括標簽加工任務、標簽圈群、群組任務。
2.支持查詢項目所在 schema 下的所有表、視圖
背景:客戶數據存在一個表被不同的項目使用的情況(不同項目使用不同的 schema),需要在創建實體的時候可以選到需要的表,當前因查不到視圖類的數據導致業務阻塞。
體驗優化說明:創建/編輯實體的第一步中的主表、輔表支持選擇當前項目數據源 schema 下的所有表、視圖。
3.群組列表中,創建人支持篩選
下拉框預設展示前20個創建人,其餘內容需通過搜索查詢。
4.項目管理頁成員管理支持對角色做篩選
指標管理平臺
新增功能更新
1.共用指標支持綁定維度對象、維度屬性
背景:上一版本新增了維度管理功能,後續指標加工將依賴綁定的維度內容識別維度一致性,共用指標需綁定已有維度才能與自有指標做複合指標加工。
新增功能說明:「指標中心」-「指標開發」-「指標定義」-「共用指標」中顯示了共用給當前項目的指標,點擊「關聯維度」即可與自有維度綁定。
2.模型支持共用給其他項目使用
背景:原指標共用使用過程中,客戶會有根據自己項目的業務需求基於源表做指標加工的需要,因源表無法獲取導致數據無法正常加工。
新增功能說明:
• 「指標共用」-「模型共用」新增模型共用
• 點擊「新增模型共用」可將指定項目的模型共用給其他項目。整體設置內容與指標共用類似,特殊地方為模型共用粒度當前支持表級別共用,即根據共用規則設置的條件分別針對模型中的每張表設置過濾條件,將過濾結果以視圖形式共用到目標項目
• 共用的模型可在項目內的「指標中心」-「數據管理」-「數據模型」中的「共用模型」tab 查看,對於需要在原模型基礎上增加自有表形成新模型的需求場景,可通過複製功能實現。點擊複製,填寫模型名稱、編碼等信息,生成新模型後,編輯模型,設置對應的維度信息、模型存儲信息後即可發佈,發佈後的模型可正常用於後續指標加工
3.維度支持共用給其他項目使用
背景:在指標管理過程中,會有對維度做全平臺統一管理的需要,當進行指標共用時,便於理解指標維度的含義。
新增功能說明:
• 「指標共用」-「維度共用」新增維度共用
• 點擊「新增維度共用」可將指定項目的維度共用給其他項目,整體設置內容與指標共用類似,只需設置基礎共用內容即可
• 共用的維度可在項目內的「指標中心」-「數據管理」-「維度管理」中的「共用維度」tab 查看,模型、自定義指標加工時選擇的維度信息可引用共用來的維度
4.指標共用時支持同步共用血緣上游指標、數據模型、維度對象
新增功能說明:
新建指標共用時,【第一步:設置通用共用信息】中的作用範圍可增加血緣上游指標、數據模型、維度對象。
增加後,【第二步:設置共用條件】將針對每個單獨的指標、模型設置共用條件,對於其中存在的共同的條件,可在第一步的公共維度共用規則中進行批量設置,最終共用規則將以第二步設置的內容為準。
5.上游內容更新後,下游內容支持聯動更新
• 統計周期變更後,引用該統計周期的派生指標的自動更新版本,變更統計周期相關的 SQL 片段
• 數據模型的維度增加併發布時,原子指標維度自動更新,增加新維度;減少時,所有使用到該維度的指標均更新,去除引用維度
• 原子指標技術信息變更併發布後(計算邏輯、精度、為空預設值),引用該原子指標的派生指標自動更新計算公式
• 派生指標、複合指標、自定義指標的維度減少併發布時,下游指標自動更新,去除引用維度
功能優化
1.模型詳情中顯示存儲方式、維度管理信息、調度信息
• 模型詳情中的「基本信息」中的【模型信息】模塊增加存儲方式顯示
• 模型詳情中的「基本信息」中的【數據信息】模塊中的維度增加維度對象、維度屬性信息顯示
• 模型詳情中的「調度信息」顯示調度相關信息,包括表/任務信息、調度信息、數據生命周期等
2.任務選擇中支持選擇落表模型對應的模型任務
模型、指標調度信息設置中,選擇上游任務時,可選擇落表模型生成的任務。
3.模型 SQL 顯示內容優化
當前模型 SQL 顯示頁面較多,不同頁面顯示內容不完全一致,有些增加了調度信息、有些只展示選中的維度、度量信息,增加理解難度,本次優化統一 SQL 顯示內容。
4.模型詳情中的「版本變更」中去除「恢復」功能
背景:增加維度管理後,因後續指標是依賴最新維度信息生成的指標維度,若對版本進行恢復,將導致模型與指標的維度信息不一致的情況。
體驗優化說明:頁面去除恢復功能,僅支持查看功能。
5.編輯模型時,不支持修改表別名
背景:模型落表後,將根據表別名生成模型表欄位,修改表別名後,模型表欄位將發生變更,導致後續計算時查詢不到歷史欄位。
體驗優化說明:編輯關聯表時,表別名不可修改。
6.模型支持源表欄位類型變更或欄位減少
源表欄位類型變更或欄位減少時,系統將彈出受影響的業務限定、指標、許可權設置、API,用戶需手動編輯後生效。
7.其他功能優化
· 數據許可權、API 的公共維度判斷調整為基於維度對象、維度屬性判斷
· 指標市場的原子指標結果查詢將返回根據公式計算的結果
《數棧產品白皮書》:https://www.dtstack.com/resources/1004?src=szsm
《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm
想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky
同時,歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack