歡迎閱讀袋鼠雲09期產品功能更新報告。在此期報告中,我們秉持創新與優化並重的理念,對產品進行了深度打磨與全面升級。每一處細節的改進,都是我們對卓越品質的不懈追求,期待這些新功能能助力您的業務運營與發展,讓數字化轉型之路更加暢通無阻。 以下為袋鼠雲產品功能更新報告09期內容,更多探索,請繼續閱讀。 離 ...
歡迎閱讀袋鼠雲09期產品功能更新報告。在此期報告中,我們秉持創新與優化並重的理念,對產品進行了深度打磨與全面升級。每一處細節的改進,都是我們對卓越品質的不懈追求,期待這些新功能能助力您的業務運營與發展,讓數字化轉型之路更加暢通無阻。
以下為袋鼠雲產品功能更新報告09期內容,更多探索,請繼續閱讀。
離線開發平臺
新增功能更新
1.任務模版
背景:客戶希望將日常通用的代碼模板在離線中進行維護,在進行數據開發時可以直接引用。
模板與組件的差異:
1、模板代碼引用後支持編輯,組件引用後不支持編輯
2、模板變更後不影響引用的任務,組件變更後會影響引用的任務
新增功能說明:支持各任務類型的項目代碼模版、租戶代碼模版,在創建任務時支持引用代碼模版。
2.shell on agent/python on agent 新增項目維度管控
背景:
Shell on agent 是離線平臺特殊的一種任務類型。
Shell 任務運行並不直接在集群部署的機器上,而是將 Shell 運行在獨立部署的伺服器節點上。因為離線一個任務需要占用兩個核,如果客戶場景存在較多 Shell 任務,很容易將集群資源打滿。因此將 Shell、Python 等任務運行在獨立部署的節點上,可以有效降低集群的壓力。
目前存在一個問題,只要客戶在 EM 和控制臺上配置的節點和伺服器用戶,集群下所有項目都可以使用配置的節點和伺服器用戶,這樣存在安全性的問題。例如 root 等高許可權的用戶,客戶比較看重安全性問題,不希望所有項目都能去使用這個賬號,因此需要設計一個能夠管控配置伺服器節點和伺服器用戶的方案,來解決這個問題。
新增功能說明:
1、控制台通過項目授權進行節點和伺服器用戶許可權管控
2、離線項目中任務支持選到被授權對伺服器節點和用戶
功能優化
1.調度配置優化,可以調控依賴上游任務的任一周期實例
背景:
目前調度中天任務預設只能依賴當前周期的上游實例,客戶可能存在以下場景:
例如客戶存在兩個業務系統「經紀關係數據」和「交易數據」,客戶6月3日的提成需要分別依賴於「經紀關係數據」和「交易數據」計算得出。如上圖所示,6月2日的「經紀關係數據」業務系統數據產出時間是6月3日;6月2日的「交易數據」業務系統數據產出時間是6月2日晚。
按照目前離線的上下游依賴邏輯,「計算客戶經理提成」任務只能取到6月3日的任務,無法獲取到6月2日的任務,因此需要進行改造,支持任務實例依賴設置可以選擇自定義周期。
體驗優化說明:
支持自定義依賴上游任務的調度周期。
T代表當前任務(下游任務)的計劃時間,“+ -”代表偏移方向,“+”代表時間向未來偏移,“-”代表時間向過去偏移,預設選擇“-”。
偏移量為數字輸入框,最大值10,最小值1,代表偏移上游任務周期數。
實時開發平臺
新增功能更新
1.視圖血緣解析
背景:
目前 SQLParser 不支持 FlinkSQL 的視圖血緣解析,但在一般開發場景下,任務如果涉及三張以上表,很多數開會選擇 IDE 里建視圖,方便閱讀 SQL 邏輯。
功能:
1、SQLParser 支持 FlinkSQL 視圖表展示血緣解析
2、任務運維-實時任務-FlinkSQL 任務詳情-血緣解析展示功能
2.FlinkSQL 支持 Oceanbase Sink
FlinkSQL1.16版本對 OceanBase 結果表的支持,同時相容 OceanBase 4.2.0 版本的 MySQL 和 Oracle 兩種模式,為用戶提供了更加靈活和高效的數據處理能力。
3.源表 Kafka 讀取類型支持 AR Json
背景:在國外,OGG 和 Attunity Replicate 是兩個廣泛使用的商業產品,為了更好地滿足客戶需求,我們需要確保 Kafka 的 JSON 格式相容 AR Json 的讀取類型。
新增功能說明:FlinkSQL1.16 版本源表 Kafka 讀取類型支持 AR Json 類型並且支持自動映射相關功能解析 Json。
4.實時湖倉 Paimon 支持
背景:藉助 Paimon 的開發,本次需要迭代一種新的 FlinkSQL 開發模式,使用該模式,可以全鏈路串起湖倉管理模塊。
新增功能說明:
1、湖倉管理新增 Paimon 表增刪改查能力
2、數據開發平臺端增加 Paimon 表的可視化配置功能
3、數據開發平臺端通過 IDE 方式完成 Paimon 表的讀寫功能
5.FlinkSQL 內置 FlinkCDC
背景:FlinkCDC 是一款開源的實時採集組件,其迭代速度非常快,底層依賴的 Flink 框架也與我們使用的 ChunJun 框架相同。因此,我們考慮將其作為實時平臺部署的預設組件,並將其打包進我們的系統中。
新增功能說明:
1、實時預設部署包,帶上 FlinkCDC 實時採集組建
2、平臺腳本模式,需要驗證下 FlinkCDC 自帶的採集能力和已經支持的 Connector
3、平臺嚮導模式,會根據項目情況,將 FlinkCDC 支持的 Connector 採集配置化掉
6.FlinkSQL 支持 FlinkCDC DB2 數據源
背景:客戶需要支持 DB2 的實時採集,考慮到 CDC Connector 開發難度又較大,FinkCDC 剛好支持,所以底層借用 FlinkCDC 的能力。
新增功能說明:實時平臺端支持嚮導模式配置源表為 DB2-CDC 數據源。
功能優化
1.續跑邏輯優化
背景:實時任務通過 CheckPoint 恢復並續跑時,需要手動選擇一個時間點,但實際上大部分續跑場景都是選擇最近一個 CheckPoint。
體驗優化說明:優化選擇通過 CheckPoint 恢復並續跑時,自動選擇日期內最近的 CheckPoint。
2.啟停策略/Offsite 優化
背景:在客戶的深入使用過程中,我們發現啟停策略、提交和重跑等方面可以進行優化,以實現更高效的工作流程和更好的用戶體驗。
目前我們的數據開發源表中的 Offsite 時間戳配置都是固定的。然而,有些客戶在實時任務計算場景中,只關註當天的數據計算,因此他們會配置一個啟停策略,以便每天重新運行任務。他們希望能夠從每天的零點開始重新運行任務,而不是使用固定的時間戳。雖然理論上 Latest 也能滿足這一需求,但由於實時任務啟動時間的消耗可能會導致實際運行時間偏離零點,從而產生數據誤差。
體驗優化說明:
1、對啟停策略配置進行優化,現在支持跨天的啟停策略,並且對當前的啟停策略頁面交互進行了改進,以提供更高效、更便捷的操作體驗
2、數據開發-源表,支持參數化配置 Offsite 位點
3.FlinkSQL1.16 版本 ES7.x 插件優化
背景:
FlinkSQL1.10 版本的 ES 插件支持配置維表超時時間和超時數據次數限制,這一功能在當前的 FlinkSQL 1.16 版本中暫時無法實現,正積極進行優化。
體驗優化說明:
FlinkSQL1.16 版本 ES7.x 插件維表配置 table.exec.async-lookup.timeout 或使用 hints 語法設置超時時間,任務運行中維表 LRU 模式,非同步查詢超時生效。
4.告警配置優化
背景:在任務告警規則中,告警接收配置需要手動選擇,無法實現根據任務責任人自動匹配發送告警信息,同時在全局告警配置中,也無法根據任務責任人自動進行對應發送。
體驗優化說明:
1、單任務告警規則配置接收人調整預設勾選任務責任人、其他接收人通過選擇框進行選擇,支持多選
2、全局告警規則配置勾選任務責任人時實際發送給每個任務的責任人,當選擇其他接收人時,選擇的任務異常時會發送給選擇的接收人
5.FlinkSQL1.12&1.16 版本 Tidb 插件平臺相容
背景:
FlinkSQL 的1.12和1.16版本已經完成了與 Tidb 的適配,然而平臺層僅在1.10版本時進行了適配,因此1.12和1.16版本不支持使用。
體驗優化說明:
實時平臺端相容 Tidb 插件1.12&1.16版本,需要同時支持維表、結果表。
6.FlinkSQL1.12&1.16 版本 Hive huaweiCloud 適配
背景:實時備份 Kafka 數據打入 MRS Hive,當實時計算數據有問題時,可以對 Hive 里的備份消息做分析。
體驗優化說明:
FlinkSQL1.12&1.16 版本 Hive huaweiCloud 適配,數據源中心、引擎、平臺同步開發支持 Hive huaweiCloud 結果表,需要關註開啟 Kerberos 場景。
數據服務平臺
新增功能更新
1.支持 HBase TBDS 版本創建 API
新增 HBase TBDS 版本創建API,所包括範圍:嚮導模式生成 API、導入導出、發佈至目標項目。
功能優化
1.Oracle 數據源支持 DML
對 DML 所支持的數據源做完善。
2.自定義 SQL 模式註釋解析不再覆蓋說明
背景:對於歷史邏輯,自定義 SQL 模式對於資料庫重新解析後,資料庫所自帶的註釋會覆蓋所修改後的說明。
體驗優化說明:對歷史邏輯進行修改,對於修改後的說明,資料庫的註釋在重新解析後不再做覆蓋處理。
3.行級許可權開啟後預設不必填
背景:對於歷史行級許可權,會從表的欄位去開啟行級許可權,開啟後欄位會預設為必填且不支持用戶取消。
體驗優化說明:本次迭代對歷史邏輯做調整,行級許可權會從 API 級別去開啟行級許可權,開啟後該 API 使用該表時,就會受到行級許可權的的限制。
4.框架版本、組件升級
Spring Cloud(Boot)框架版本升級,Nacos 組件升級,降低漏洞出現概率,加強 API 本身的穩定性。
客戶數據洞察平臺
新增功能更新
1.支持自定義 UDF 函數
背景:客戶加工的數據中涉及到的手機號、身份證號等數據是加密數據,從審計角度來說,這種數據是不可以明文展示的,但上層業務上會有展示明文內容的場景,如:基於手機號進行簡訊營銷。
客戶需要將解密流程儘量後置,放到標簽平臺完成,通過 UDF 函數自定義的方式添加自定義標簽完成加工。
新增功能說明:標簽中心新增函數管理模塊,在該模塊下可創建、查看、刪除 UDF 函數(僅 Trino385 以上版本支持創建函數)
上傳的函數可點擊函數名稱查看函數詳情。
上傳的函數主要作用於衍生 SQL 標簽的加工。
2.支持加工多值標簽
背景:目前衍生標簽、組合標簽加工規則是當一個實例先命中了某一規則條件,則為該實例打上對應標簽值,其他標簽值不再做匹配,最終資料庫里存的是單值標簽結果。
但在實際應用中,條件之間不一定是互斥的,如:根據用戶購買特定類型的商品次數給用戶打上商品偏好標簽,一個用戶可以既喜歡傢具,又喜歡服裝,此時需要支持多值標簽的設置。
新增功能說明:
衍生規則標簽、衍生 SQL 標簽、組合標簽、自定義標簽加工支持配置為多值標簽,系統根據設置的標簽值類型計算。
• 單值標簽:按規則配置順序依次匹配,命中某一個標簽值時停止繼續匹配,數據結果中最多有一個標簽值
• 多值標簽:按規則配置順序依次匹配,每一個規則均會匹配一遍,數據結果中最多有配置的n個標簽值
針對計算結果,標簽詳情中將針對每一個單獨的標簽做實例數統計,即,單值標簽的每個標簽值覆蓋實例數之和為標簽覆蓋實例數,多值標簽的每個標簽值覆蓋實例數之和大於等於標簽覆蓋實例數。
3.自定義角色對接業務中心
背景:之前角色為系統內置角色,且不可新增/修改/刪除角色,不可自定義角色許可權,功能過於固定,無法根據客戶實際業務場景做靈活調整,在6.0版本中,業務中心新增自定義角色功能,標簽產品對接業務中心的該功能,實現如下效果:
1、支持新增角色
2、支持自定義角色許可權
新增功能說明:在業務中心配置角色及其指標許可權,標簽平臺將自動引入許可權配置結果做查詢。
1、業務中心新增角色及配置角色許可權點:
2、標簽平臺查看角色及其許可權點:
4、數據展示格式支持自定義
背景:對於數值型標簽,目前不支持設置展示精度,導致頁面展示不規範,有些顯示的是1這種整數,有些顯示的是1.234這種小數,整體閱讀體驗不高,為提升使用體驗,需要增加數據展示規則的設置。
新增功能說明:
1、實體創建/編輯時、原子標簽編輯時、衍生SQL標簽創建/編輯時,支持對數值型的標簽設置展示規則
2、支持展示成小數、百分數、千分數,並支持設置小數點後位數
3、群組相關頁面展示的標簽數據,根據設置的展示規則展示
5、標簽/群組文件上傳支持查看上傳進度
背景:文件導入功能目前上傳無進度提示,當文件過大時等待時間較久,會讓用戶產生頁面卡住了的誤解,需增加進度提示已讓用戶明晰當前進展。
新增功能說明:
1、標簽、群組文件上傳、離線查詢任務運行過程中增加進度提示
2、群組文件上傳調整為支持最多上傳500M大小文件
6、下載中心支持查詢下載進度
背景:數據下載過程中,因數據量大導致數據準備時間很久才能下載,用戶使用時沒有預期,需要頻繁刷新以確定是否可以執行下載。需要增加下載進度提示,以指導用戶確定等待時長。
新增功能說明:下載中心任務狀態增加等待運行、已中止狀態。其中,標簽圈群-群組列表、群組詳情-群體列表、上傳本地群組-實例列表、離線查詢-群組詳情-實例列表、群組交並差-實例列表的下載因群組列表數據量較大,採用串列下載方式執行,群組列表相關任務依次排隊執行,未排到的狀態是等待運行,其他下載數據量小,將直接執行任務。任務運行過程中,可針對不再需要的任務執行中止操作。
功能優化
1.數據導出調整為通過下載中心下載文件
背景:部分頁面的文件下載,是直接進行下載,導致按鈕始終處於運行狀態不變,使用者無法感知到下載進度。
體驗優化說明:數據導出相關按鈕點擊後,文件進行非同步下載,下載完成後,可進入「下載中心」模塊下載數據詳情,涉及到的頁面按鈕如下:標簽圈群-數據導出、群組詳情-群體列表-數據導出、上傳本地群組-實例列表-數據導出、離線查詢-上傳本地群組/群組交並差詳情-數據導出、群組交並差-數據導出。
若數據量過大, 系統將根據用戶設置的記錄數上限做分文件導出。
2.下載中心來自標簽圈群、群組詳情的列表數據支持查看配置詳情
背景:目前下載中心的文件來源較多,只針對文件名稱不便於做內容區分,需要增加文件數據來源,以提升數據可用性。
體驗優化說明:來自標簽圈群、群組詳情的列表數據支持點擊,點擊側邊欄打開配置詳情。
3.標簽市場上新標簽功能優化
背景:目前平臺對於上新標簽的定義未做說明,需要增加說明。
體驗優化說明:平臺上新標簽定義為近24小時,但實際使用中,周末一般大家不會關註,到了周一來再關註的時候會存在周五至周日早上更新的標簽無法通知到位的情況,將定義調整為近7天。
4.跨子產品切換許可權適配優化
標簽產品進行跨子產品切換時,會存在頁面tab內容缺失情況,是由於許可權問題導致,本次優化保證跨產品切換頁面時功能正常可用。
5、支持列寬調整自定義
群組列表、群組詳情-群體列表、標簽圈群-用戶列表、群組交並差-實例列表、標簽列表列寬支持自定義。
自定義列寬後,基於當前瀏覽器、當前登陸用戶的後續使用均生效,當用戶使用新瀏覽器登錄操作或是當前瀏覽器清空緩存,或重新登陸,展示預設設置。
指標管理平臺
新增功能更新
1.自定義角色對接業務中心
背景:之前角色為系統內置角色,且不可新增/修改/刪除角色,不可自定義角色許可權,功能過於固定,無法根據客戶實際業務場景做靈活調整。
新增功能說明:
在業務中心配置角色及其指標許可權,指標平臺將自動引入許可權配置結果做查詢:
1、業務中心新增角色及配置角色許可權點
2、指標平臺查看角色及其許可權點
2.Spark、數據同步任務支持自定義參數配置
背景:針對 Spark 任務、數據同步任務,目前只能通過控制台做參數調整,調整結果將在全局生效,但指標任務之間的數據量級差異性較大,配置相同的參數將造成資源浪費,因此針對 Spark、數據同步任務支持設置任務級參數,以方便對任務做靈活調控。
新增功能說明:
1、Spark任務自定義參數配置:其中,executor 啟動數、CPU 核數、記憶體大小必填;可設置自定義參數
2、數據同步任務自定義參數配置:其中,per-job 模式下,jobmanager 記憶體、taskmanager 記憶體、slots必填;作業併發數、HBase 的 WriteBufferSize 必填;可設置自定義參數
功能優化
1.瀏覽器支持同時打開多個項目
背景:歷史功能中,cookie 未存儲項目參數,導致當數棧打開一個新項目視窗時,歷史視窗中的內容將被刷新,回到項目列表頁進行項目選擇,影響客戶使用。
體驗優化說明:本次優化支持瀏覽器同時打開多個項目做查詢、操作等,以提高產品使用效率。
2.edge 瀏覽器相容
相容 egde 瀏覽器,對功能做相應的適配調整,以提高產品在主流瀏覽器上的可用性。
3.行更新補充表更新時間
背景:行更新數據記錄中缺少表數據變更時間段,導致做數據檢索的時候不方便,為提高數據檢索效率,平臺中增加相關數據。
體驗優化說明:指標行更新增加表數據變更開始時間、結束時間。
4.行更新狀態增加手動刷新功能
行更新過程中,為方便及時跟進更新進度,在頁面增加刷新按鈕,以提高刷新效率。
5、模型填充的維度對象、維度屬性功能優化
編輯模型時,設置維度信息步驟中,系統會預設回填主維表欄位綁定的維度信息,若歷史版本中用戶已修改關聯維度,編輯過程中若未註意調整,將會保存錯誤數據,為避免數據錯誤率,調整為回顯上一版本保存信息。
6、API gateway支持自定義首碼
指標當前是 API 的首碼信息是寫到配置項中,同時 API 目前有一個自定義首碼功能以提高 API 配置靈活性。此時,當指標的 API 配置項與 API 自定義首碼不一致時無法正常調用數據,需要調整為對接 API 的配置設置,保證全局配置唯一。
《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm
《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm
想瞭解或咨詢更多有關大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky