《數據資產管理核心技術與應用》是由清華大學出版社出版的一本圖書,該圖書主要特點如下: 1、依托於大數據技術,獨家解密數據血緣的底層技術實現 2、詳解數據資產管理的知識體系和核心技術 3、應用元數據管理和數據建模技術,充分發揮出數據資產的更大潛力和價值。 4、全書從元數據、數據血緣、數據質量、數據服務 ...
《數據資產管理核心技術與應用》是由清華大學出版社出版的一本圖書,該圖書主要特點如下:
1、依托於大數據技術,獨家解密數據血緣的底層技術實現
2、詳解數據資產管理的知識體系和核心技術
3、應用元數據管理和數據建模技術,充分發揮出數據資產的更大潛力和價值。
4、全書從元數據、數據血緣、數據質量、數據服務、數據監控、數據建模、數據架構等多個維度來剖析大數據資產管理的核心技術與應用。
5、全書配套了PPT課件以及作者微信答疑服務
核心章節介紹如下:全書依托於大數據技術,獨家解密數據血緣的底層技術實現
通常來說,數據血緣的來源可以包括數據源自身、數據處理的任務、數據任務的編排系統等。
- 數據源自身:比如像Hive,由於其本身就是支持通過HQL做數據處理的,所以其本身就可以通過數據處理的過程來分析從而獲取血緣。
- 數據處理的任務:這點很容易理解,因為不管是實時任務還是離線任務,都會涉及到數據邏輯的處理,從數據任務的底層實現技術上來說,不管是Hadoop的Map-Reduce 任務還是Spark任務還是Flink任務,本質也都是在做數據的轉換處理,有數據的轉換,就可能會有數據血緣的變化。
- 數據任務的編排系統:這點也很容易理解,如下圖3-1-1所示,在任務編排時,可能會將很多不同的任務節點按照依賴順序串聯起來。前一個任務節點的數據輸出會是下一個任務節點的數據輸入,所以肯定也會產生數據的轉換,就肯定也會存在血緣。
- 重點介紹了數據血緣的底層技術實現,包括:
- 如何從Hive中獲取數據血緣
- 從Spark 執行計劃中獲取數據血緣
- 從Spark SQL語句中獲取數據血緣
- 從Flink中獲取數據血緣
- 從數據任務的編排系統中獲取數
作者的原創文章,轉載須註明出處。原創文章歸作者所有,歡迎轉載,但是保留版權。對於轉載了博主的原創文章,不標註出處的,作者將依法追究版權,請尊重作者的成果。