在各行各業中,越來越多的公司開始重視收集數據,並尋找創新方法來獲得真實可行的商業成果,並且願意投入大量時間和金錢來實現這一目標。 據IDC稱,數據和分析軟體及雲服務市場規模在 2021 年達到了 900 億美元,隨著企業繼續對人工智慧和機器學習 (AI/ML) 和現代數據計划進行投資,預計到 202 ...
在各行各業中,越來越多的公司開始重視收集數據,並尋找創新方法來獲得真實可行的商業成果,並且願意投入大量時間和金錢來實現這一目標。
據IDC稱,數據和分析軟體及雲服務市場規模在 2021 年達到了 900 億美元,隨著企業繼續對人工智慧和機器學習 (AI/ML) 和現代數據計划進行投資,預計到 2026 年將增長一倍以上。
然而,儘管投入了大量資金,數據項目往往收效甚微。麥肯錫最近對高級主要分析項目進行的一項調查發現,公司 80% 的時間都花在準備數據等重覆性任務上,而這些任務產生的增值作用有限。此外,他們還發現,只有 10% 的公司認為他們已經控制住了這個問題。
項目為何失敗?
儘管增加了投資和關註,數據項目的失敗率為什麼仍然如此之高?
許多變數都會影響項目的成功,經常被提及的因素包括項目複雜性和對應的開發人才技術水平。企業也意識到,許多數據項目都失敗了,是因為他們難以在生產中大規模實施數據計劃。
這導致了 DataOps 的出現,成為剋服大數據項目中常見挑戰的新框架。DataOps 是敏捷工程和 DevOps 最佳實踐在數據管理領域的應用,能幫助企業快速將新見解轉化為完全可操作的生產交付成果,從而從數據中釋放出商業價值。
數據調度的挑戰
大多數數據工作流都非常複雜,需要跨多個不同的應用程式、數據源和基礎架構技術運行,並且這些技術需要協同工作。雖然目標是在生產中實現這些流程的自動化,但現實情況是,如果沒有強大的工作流調度平臺,在企業規模上交付這些項目可能會非常昂貴,而且通常需要花費大量時間進行手動工作。
2023年1月份,白鯨開源正式發佈了 Apache DolphinScheduler商業版Whalescheduler。相比於開源版本,商業版擁有更為專業的服務支持,感興趣的小伙伴可以看下這篇文章進一步瞭解:什麼是數據調度平臺 WhaleScheduler
數據工作流調度項目有四個關鍵階段:
-
數據引入:這涉及從傳統來源(如企業資源規劃 (ERP) 和客戶資源管理 (CRM) 解決方案、金融系統等)以及現代來源(如設備、物聯網 (IoT) 感測器和社交媒體)收集數據。
-
數據存儲:存儲數據的方式和地點取決於持久性、數據集的相對價值、分析模型的刷新率以及數據移動到處理階段的速度。
-
數據處理:處理階段也面臨許多挑戰,包括需要多少處理能力?是恆定的還是可變的?是定期的、事件驅動的還是臨時的?如何將成本降到最低?
-
洞察傳遞:這需要將數據輸出移動到分析系統。這一層同樣複雜,有越來越多的工具代表數據管道中的最後一英里。
隨著新數據和雲技術的頻繁推出,公司不斷重新評估其技術堆棧。這種不斷發展的創新帶來了壓力和客戶流失,這可能是一個挑戰,因為公司需要輕鬆採用新技術並將其擴展到生產中。
最終,如果新的數據分析服務沒有大規模投入生產,公司就無法獲得可操作的見解或實現價值。
實現規模生產
在生產中成功大規模運行業務關鍵型工作流程並非偶然。正確的工作流程調度平臺可以幫助您簡化數據管道並獲得所需的可行見解。
考慮到這一點,以下是您在工作流調度平臺中需要尋找的八個基本功能:
-
支持異構工作流:各公司正在迅速轉向雲,在可預見的未來,工作流將跨越高度複雜的混合環境。對於許多公司而言,這將包括支持跨數據中心和多個私有雲和/或公共雲的大型機和分散式系統。Apache DolphinScheduler 是一個強大的開源分散式工作流調度平臺,能夠處理多種應用程式和基礎設施的多樣性,提供一致的自動化策略。
-
SLA 管理:業務工作流(從預測風險的 ML 模型到財務結算和付款結算)都有完成 SLA,這些 SLA 有時受監管機構制定的準則的約束。您的調度平臺必須能夠理解並通知您複雜工作流中的任務失敗和延遲,並且需要能夠將問題映射到更廣泛的業務影響。
-
錯誤處理和通知:在生產中運行時,即使是設計得最好的工作流程也會出現故障和延遲,而海豚調度恰恰有非常完善的告警機制,並支持一些主流的平臺
-
自我修複和補救:響應業務工作流中的作業故障時,平臺會採取糾正措施,例如重新啟動作業、刪除文件或刷新緩存或臨時表。調度平臺應允許自動化工程師配置此類操作,以便在下次發生相同問題時自動執行。
-
端到端可視性:工作流跨混合技術棧執行互連的業務流程。調度平臺應該能夠清晰地顯示工作流的沿襲。這對於幫助工程師瞭解應用程式與其支持的業務流程之間的關係至關重要。這對於變更管理也很重要。在進行變更時,瞭解流程上游和下游發生的情況至關重要。
-
自助式用戶體驗:工作流調度是一項團隊活動,涉及許多利益相關者,例如數據團隊、開發人員、運營、業務流程所有者等。每個團隊對於如何與調度工具交互都有不同的用例和偏好。
-
生產標準:在生產中運行工作流需要遵守標準,這意味著使用正確的命名約定、錯誤處理模式等。您的調度平臺應該有一個機制,提供一種非常簡單的方法來定義這些標準,併在用戶構建工作流時引導遵循適當的標準。
-
支持 DevOps 實踐:隨著公司採用 DevOps 實踐,例如持續集成和持續部署 (CI/CD) 管道、工作流開發、修改甚至工作流基礎設施部署,您的調度平臺應該能夠適應現代發佈實踐。
對數據的需求正在上升,並且沒有減弱的跡象,這意味著擁有存儲、處理和操作數據的能力對於任何企業的成功仍然至關重要。DataOps 實踐與強大的調度功能相結合,可以幫助企業調度數據管道、簡化數據交付流程並改善業務成果。
WhaleStudio是白鯨開源根據全球領先的DataOps理念打造的新一代全棧數據集成調度產品,具有分散式、雲原生並帶有強大可視化界面的特點,將全球領先的調度開發組件Apache DolphinScheduler與數據集成組件Apache SeaTunnel集成在一起提供給全球用戶領先的完整解決方案,支持170+數據源集成並全面支持信創環境,目前已服務於6000+企業。
本文來源於:https://www.datanami.com/2024/05/15/unlock-your-data-initiatives-with-dataops/ 如有侵權,請聯繫刪除
本文由 白鯨開源 提供發佈支持!