引言 我叫李慶旺,是Cisco Webex的一名軟體工程師,同時也是Apache DolphinScheduler(以下簡稱DS)的Committer。 在過去的兩年裡,公司基於Apache DolphinScheduler進行了多項持續改進和創新,以更好地適應我們的業務需求。本文將介紹這些改進的具 ...
在當今這個數據驅動的時代,各行各業都正經歷著前所未有的變革。伴隨技術的飛速發展,數據倉庫作為企業數據管理與分析的核心,如何更好地發揮作用,助力企業保持業務的敏捷性與成本效益,成為大家關心的焦點問題。本文將通過具體案例分析,展現基於離線開發的數據倉庫轉型落地中的關鍵步驟與實施策略。 一、業務增長迅速, ...
資料庫從 mysql5.7 升級到 mysql8.4,部分場景出現以下錯誤提示:Plugin 'mysql_native_password' is not loaded 原因是:mysql_native_password 插件(模式)在新版本中被棄用了,新模式為 caching_sha2_passw ...
近年來,政府將數據要素納入了經濟發展的重要指示性文件當中,希望利用數據驅動。《全國數據資源調查報告(2023年)》顯示,2024年以來不少地方紛紛成立“數據集團”,加快盤活數據資產。作為數字經濟時代的首要生產要素,數據將有望成為政府和企業財務報表以及財政收入的重要支持。 一、數據資產定義 數據資產是 ...
Percona Toolkit 神器全攻略(複製類) Percona Toolkit 神器全攻略系列共八篇,前文回顧: 前文回顧 Percona Toolkit 神器全攻略 Percona Toolkit 神器全攻略(實用類) Percona Toolkit 神器全攻略(配置類) Percona T ...
原表結構如下,我們可以發現,“日運輸量”和“車次”是在同一張表中相互獨立的兩個欄位,即獨立的兩列數據,下麵,我將系統中的測試數據以及代碼全部放出來,以解釋列轉行的操作方法 原表資料庫查詢代碼: 1 SELECT 2 yzrq AS 運作日期, 3 DATE_FORMAT( yzrq, '%Y-%m' ...
Redis使用場景 目錄 緩存 緩存穿透 緩存擊穿 緩存雪崩 雙寫一致性 持久化 數據過期策略 數據淘汰策略 分散式鎖 實現原理(setnx、redission) 其他 哨兵模式、集群腦裂 分片集群、數據讀取規則 redis是單線程的卻很快 緩存 一、緩存穿透 定義:查詢一個不存在的數據,Mysql ...
摘要:本文主要介紹基於源碼部署 Datavines 和執行檢查作業,內容主要分為以下幾個部分: 平臺介紹 快速部署 運行數據質量檢查作業 Datavines 的目標是成為更好的數據可觀測性領域的開源項目,為更多的用戶去解決元數據管理和數據質量管理中遇到的問題。在此我們真誠歡迎更多的貢獻者參與到社區建 ...
本系列文章是 DolphinScheduler 由淺入深的教程,涵蓋搭建、二開迭代、核心原理解讀、運維和管理等一系列內容。適用於想對 DolphinScheduler瞭解或想要加深理解的讀者。 推薦閱讀: 海豚調度監控:使用圖關係解決核心鏈路告警問題,減輕任務運維負擔,用戶五星好評! 海豚調度 ...
寫在前面 今天學習hadoop部分的知識。 Hadoop 概述 Hadoop 是一個適合海量數據的分散式存儲和分散式計算的平臺。Hadoop 的處理思想是“分而治之”。它起源於 Google 的三篇文章:Google FS(GFS),MapReduce,BigTable。Hadoop 主要包含三個核 ...
在用鍵值對RDD進行操作時,經常會遇到不知道如何篩選出想要數據的情況,這裡提供了一些解決方法 目錄1、對固定的Key數據進行查詢2、對不固定的Key數據進行模糊查詢 1、對固定的Key數據進行查詢 代碼說明: SparkConf:配置 Spark 應用程式的一些基本信息。 SparkContext: ...
時空人工智慧 時空人工智慧是AI領域的新型創新應用技術,定義為以時空為‘索引’對多源異構數據進行時空化治理和融合,並借力知識工程和AI演算法進行智能化分析,從而挖掘知識和輔助決策。時空AI是地理空間智能、城市空間智能和時空大數據智能等的統一表示,包括從時空感知、認知到決策預知的多項核心技術。其應用生態 ...
介紹: MyBatis-Plus 是基於 MyBatis 框架的一個增強工具,主要目的是簡化 MyBatis 的開發過程,提供更加簡潔、方便的 CRUD 操作。它是在保留 MyBatis 強大功能的基礎上,通過封裝和優化一些常見操作來提高開發效率。 MyBatis-Plus 提供了許多開箱即用的功能 ...
《數據資產管理核心技術與應用》是清華大學出版社出版的一本圖書,全書共分10章,第1章主要讓讀者認識數據資產,瞭解數據資產相關的基礎概念,以及數據資產的發展情況。第2~8章主要介紹大數據時代數據資產管理所涉及的核心技術,內容包括元數據的採集與存儲、數據血緣、數據質量、數據監控與告警、數據服務、數據許可權 ...
導讀:數據同步方式的重要性對於數據集成領域的興從業者不言而喻,選擇正確的數據同步方式能讓數據同步工作的成果事半功倍。目市面上的數據同步工具很多,提供的數據同步方式也有多種,不同的數據同步方式有什麼區別?如何選擇適合自己業務需求的數據同步方式呢?本文將對此進行深入分析,並深入剖析WhaleTunnel ...
tcp mem 相關 net.ipv4.tcp_rmem = 4096 131072 6291456 讀取緩衝區,單位位元組 net.ipv4.tcp_wmem = 4096 16384 4194304 發送緩衝區,單位位元組 net.ipv4.tcp_mem = 760707 1014278 1521 ...