一、Atlas是什麼? 在當今大數據的應用越來越廣泛的情況下,數據治理一直是企業面臨的巨大問題。 大部分公司只是單純的對數據進行了處理,而數據的血緣,分類等等卻很難實現,市場上也急需要一個專註於數據治理的技術框架,這時Atlas應運而生。 Atlas官網地址: "https://atlas.apac ...
一、Atlas是什麼?
在當今大數據的應用越來越廣泛的情況下,數據治理一直是企業面臨的巨大問題。
大部分公司只是單純的對數據進行了處理,而數據的血緣,分類等等卻很難實現,市場上也急需要一個專註於數據治理的技術框架,這時Atlas應運而生。
Atlas官網地址:https://atlas.apache.org/
Atlas是Hadoop的數據治理和元數據框架。
Atlas是一組可擴展和可擴展的核心基礎治理服務,使企業能夠有效,高效地滿足Hadoop中的合規性要求,並允許與整個企業數據生態系統集成。
Apache Atlas為組織提供了開放的元數據管理和治理功能,以建立其數據資產的目錄,對這些資產進行分類和治理,併為數據科學家,分析師和數據治理團隊提供圍繞這些數據資產的協作功能。
Atlas支持各種Hadoop和非Hadoop元數據類型
提供了豐富的REST API進行集成
對數據血緣的追溯達到了欄位級別,這種技術還沒有其實類似框架可以實現
對許可權也有很好的控制
二、架構原理
Atlas包括以下組件:
- 採用Hbase存儲元數據
- 採用Solr實現索引
- Ingest/Export 採集導出組件 Type System類型系統 Graph Engine圖形引擎 共同構成Atlas的核心機制
- 所有功能通過API向用戶提供,也可以通過Kafka消息系統進行集成
- Atlas支持各種源獲取元數據:Hive,Sqoop,Storm。。。
- 還有優秀的UI支持
三、效果圖
更多大數據,Atlas,ES,Kafka等技術博文,歡迎關註實時流式計算:
本文由博客一文多發平臺 OpenWrite 發佈!