DataOps真能“降本增效”?

来源:https://www.cnblogs.com/DolphinScheduler/p/18259106
-Advertisement-
Play Games

在各行各業中,越來越多的公司開始重視收集數據,並尋找創新方法來獲得真實可行的商業成果,並且願意投入大量時間和金錢來實現這一目標。 據IDC稱,數據和分析軟體及雲服務市場規模在 2021 年達到了 900 億美元,隨著企業繼續對人工智慧和機器學習 (AI/ML) 和現代數據計划進行投資,預計到 202 ...


在各行各業中,越來越多的公司開始重視收集數據,並尋找創新方法來獲得真實可行的商業成果,並且願意投入大量時間和金錢來實現這一目標。

file

據IDC稱,數據和分析軟體及雲服務市場規模在 2021 年達到了 900 億美元,隨著企業繼續對人工智慧和機器學習 (AI/ML) 和現代數據計划進行投資,預計到 2026 年將增長一倍以上。

然而,儘管投入了大量資金,數據項目往往收效甚微。麥肯錫最近對高級主要分析項目進行的一項調查發現,公司 80% 的時間都花在準備數據等重覆性任務上,而這些任務產生的增值作用有限。此外,他們還發現,只有 10% 的公司認為他們已經控制住了這個問題。

項目為何失敗?

儘管增加了投資和關註,數據項目的失敗率為什麼仍然如此之高?

許多變數都會影響項目的成功,經常被提及的因素包括項目複雜性和對應的開發人才技術水平。企業也意識到,許多數據項目都失敗了,是因為他們難以在生產中大規模實施數據計劃。

這導致了 DataOps 的出現,成為剋服大數據項目中常見挑戰的新框架。DataOps 是敏捷工程和 DevOps 最佳實踐在數據管理領域的應用,能幫助企業快速將新見解轉化為完全可操作的生產交付成果,從而從數據中釋放出商業價值。

數據調度的挑戰

大多數數據工作流都非常複雜,需要跨多個不同的應用程式、數據源和基礎架構技術運行,並且這些技術需要協同工作。雖然目標是在生產中實現這些流程的自動化,但現實情況是,如果沒有強大的工作流調度平臺,在企業規模上交付這些項目可能會非常昂貴,而且通常需要花費大量時間進行手動工作。

2023年1月份,白鯨開源正式發佈了 Apache DolphinScheduler商業版Whalescheduler。相比於開源版本,商業版擁有更為專業的服務支持,感興趣的小伙伴可以看下這篇文章進一步瞭解:什麼是數據調度平臺 WhaleScheduler

數據工作流調度項目有四個關鍵階段:

  • 數據引入:這涉及從傳統來源(如企業資源規劃 (ERP) 和客戶資源管理 (CRM) 解決方案、金融系統等)以及現代來源(如設備、物聯網 (IoT) 感測器和社交媒體)收集數據。

  • 數據存儲:存儲數據的方式和地點取決於持久性、數據集的相對價值、分析模型的刷新率以及數據移動到處理階段的速度。

  • 數據處理:處理階段也面臨許多挑戰,包括需要多少處理能力?是恆定的還是可變的?是定期的、事件驅動的還是臨時的?如何將成本降到最低?

  • 洞察傳遞:這需要將數據輸出移動到分析系統。這一層同樣複雜,有越來越多的工具代表數據管道中的最後一英里。

隨著新數據和雲技術的頻繁推出,公司不斷重新評估其技術堆棧。這種不斷發展的創新帶來了壓力和客戶流失,這可能是一個挑戰,因為公司需要輕鬆採用新技術並將其擴展到生產中。

最終,如果新的數據分析服務沒有大規模投入生產,公司就無法獲得可操作的見解或實現價值。

實現規模生產

在生產中成功大規模運行業務關鍵型工作流程並非偶然。正確的工作流程調度平臺可以幫助您簡化數據管道並獲得所需的可行見解。

考慮到這一點,以下是您在工作流調度平臺中需要尋找的八個基本功能

  • 支持異構工作流:各公司正在迅速轉向雲,在可預見的未來,工作流將跨越高度複雜的混合環境。對於許多公司而言,這將包括支持跨數據中心和多個私有雲和/或公共雲的大型機和分散式系統。Apache DolphinScheduler 是一個強大的開源分散式工作流調度平臺,能夠處理多種應用程式和基礎設施的多樣性,提供一致的自動化策略。

  • SLA 管理:業務工作流(從預測風險的 ML 模型到財務結算和付款結算)都有完成 SLA,這些 SLA 有時受監管機構制定的準則的約束。您的調度平臺必須能夠理解並通知您複雜工作流中的任務失敗和延遲,並且需要能夠將問題映射到更廣泛的業務影響。

  • 錯誤處理和通知:在生產中運行時,即使是設計得最好的工作流程也會出現故障和延遲,而海豚調度恰恰有非常完善的告警機制,並支持一些主流的平臺

  • 自我修複和補救:響應業務工作流中的作業故障時,平臺會採取糾正措施,例如重新啟動作業、刪除文件或刷新緩存或臨時表。調度平臺應允許自動化工程師配置此類操作,以便在下次發生相同問題時自動執行。

  • 端到端可視性:工作流跨混合技術棧執行互連的業務流程。調度平臺應該能夠清晰地顯示工作流的沿襲。這對於幫助工程師瞭解應用程式與其支持的業務流程之間的關係至關重要。這對於變更管理也很重要。在進行變更時,瞭解流程上游和下游發生的情況至關重要。

  • 自助式用戶體驗:工作流調度是一項團隊活動,涉及許多利益相關者,例如數據團隊、開發人員、運營、業務流程所有者等。每個團隊對於如何與調度工具交互都有不同的用例和偏好。

  • 生產標準:在生產中運行工作流需要遵守標準,這意味著使用正確的命名約定、錯誤處理模式等。您的調度平臺應該有一個機制,提供一種非常簡單的方法來定義這些標準,併在用戶構建工作流時引導遵循適當的標準。

  • 支持 DevOps 實踐:隨著公司採用 DevOps 實踐,例如持續集成和持續部署 (CI/CD) 管道、工作流開發、修改甚至工作流基礎設施部署,您的調度平臺應該能夠適應現代發佈實踐。

對數據的需求正在上升,並且沒有減弱的跡象,這意味著擁有存儲、處理和操作數據的能力對於任何企業的成功仍然至關重要。DataOps 實踐與強大的調度功能相結合,可以幫助企業調度數據管道、簡化數據交付流程並改善業務成果。

WhaleStudio是白鯨開源根據全球領先的DataOps理念打造的新一代全棧數據集成調度產品,具有分散式、雲原生並帶有強大可視化界面的特點,將全球領先的調度開發組件Apache DolphinScheduler與數據集成組件Apache SeaTunnel集成在一起提供給全球用戶領先的完整解決方案,支持170+數據源集成並全面支持信創環境,目前已服務於6000+企業。

本文來源於:https://www.datanami.com/2024/05/15/unlock-your-data-initiatives-with-dataops/ 如有侵權,請聯繫刪除

本文由 白鯨開源 提供發佈支持!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本文分享自華為雲社區《MySQL全文索引源碼剖析之Insert語句執行過程》,作者:GaussDB 資料庫。 本文主要介紹MySQL 8.0數據字典的基本概念和數據字典的初始化與啟動載入的主要流程。 MySQL 8.0數據字典簡介 數據字典(Data Dictionary, DD)用來存儲資料庫內部 ...
  • 哨兵模式 官方文檔:https://redis.io/docs/latest/operate/oss_and_stack/management/sentinel 關聯博客:Redis主從複製(下文能用到) 極簡概括:自動監控Redis主節點是否故障的一種方案,若主節點故障,則Redis會根據投票數自 ...
  • Primer Premier是一款專業級PCR引物設計工具軟體,專為科研及分子生物學實驗定製PCR擴增、測序探針及雜交引物。該程式運用尖端演演算法評估引物的特異性、二聚體可能性和熔解溫度等核心屬性,確保產出的引物在性能上精準高效。其用戶友好界面不僅簡化了引物設計流程,並整合了序列比對與限制性內切酶位點 ...
  • 昨天同事遇到的一個案例,這裡簡單描述一下:一個表裡面有一個bit類型的欄位,同事在優化相關SQL的過程中,給這個表的bit類型的欄位新增了一個索引,然後測試驗證 時,居然發現SQL語句執行結果跟不加索引不一樣。加了索引後,SQL語句沒有查詢出一條記錄,刪除索引後,SQL語句就能查詢出幾十條記錄。下麵 ...
  • 本系列文章是DolphinScheduler由淺入深的教程,涵蓋搭建、二開迭代、核心原理解讀、運維和管理等一系列內容。適用於想對 DolphinScheduler瞭解或想要加深理解的讀者。 **祝開卷有益。 ** 本系列教程基於 DolphinScheduler 2.0.5 做的優化。(穩定版 ...
  • 通過本篇文章的學習和實踐,我們深入瞭解瞭如何利用Docker技術快速部署KingbaseES資料庫。從下載鏡像到編寫Docker Compose模板,再到容器的啟動和管理,每一步都體現了現代化部署方式的便捷和高效。此外,我們還掌握了KSQL命令行工具的使用,這將極大地提升開發人員與資料庫交互的效率。 ...
  • 本文是對這篇文章Detect And Repair Corruption in an Oracle Database[1]的翻譯,翻譯如有不當的地方,敬請諒解,請尊重原創和翻譯勞動成果,轉載的時候請註明出處。謝謝! Oracle資料庫提供了多種方法檢測和修複數據文件中的壞塊。主要有下麵一些方法: R ...
  • 在Tez上優化Hive查詢無法採用一刀切的方法。查詢性能取決於數據的大小、文件類型、查詢設計和查詢模式。在性能測試過程中,應評估和驗證配置參數及任何SQL修改。建議在工作負載的性能測試過程中一次只進行一項更改,並最好在開發環境中評估調優更改的影響,然後再在生產環境中使用。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...