Kylin 新定位:分析型數據倉庫

来源:https://www.cnblogs.com/kyligence/archive/2020/03/27/apache-kylin-slogan-from-extreme-olap-engine-for-big-data-to-analytical-data-warehouse-for-big-data.html
-Advertisement-
Play Games

2020 年 3 月,Kylin 社區決定將 Kylin 的標語從「Extreme OLAP Engine for Big Data」更改為 「Analytical Data Warehouse for Big Data」,以更加準確地描述 Kylin 的能力和定位,也更容易地讓用戶通過搜索引擎檢索... ...


親愛的各位社區朋友:

 

Apache Kylin 在 2014 年 10 月開源並加入 Apache 軟體基金會的孵化器,一年後從孵化器畢業成為 Apache 頂級項目。從第一天起,Kylin 的標語是「Extreme OLAP Engine for Big Data」。五年來,Kylin 已經成為了大數據版圖中一個不可或缺的角色,幫助了全球上千家企業進行高效的大數據分析。

 

經過五年的發展,如今回頭看,我們發現 Kylin 已經不僅僅是一個 OLAP 分析引擎。它的完整能力已經被被廣大社區用戶證實超越了「OLAP Engine」的範疇,被廣泛應用於不同的場景,扮演更加全面的角色:

  1. 當年 eBay 發起 Kylin 項目時,寄希望它能夠將部分負載從昂貴的專有商業數據倉庫如 Teradata 遷移到廉價、開放的大數據平臺上。五年過去了,Kylin 憑藉高性能和高可用性在 eBay 內部被廣泛使用,而 Teradata 逐步被替換。今天,Kylin 在 eBay 每天服務數百萬次查詢,且大多數查詢在 1 秒鐘內完成。
  2. 美團、攜程、京東、滴滴、小米、華為、丁香園,OLX 集團、汽車之家、Xactly 等許多公司都使用 Kylin 打造了他們的 DaaS(數據即服務)平臺,為成千上萬的分析師和租戶提供數據服務。
  3. 一些微軟 SSAS 的用戶也正在逐步遷移到 Kylin 上,以承載更大的數據容量和獲得更好的體驗。
  4. 中國銀聯和某頭部保險集團從 IBM Cognos 架構升級到 Hadoop + Kylin。因為分散式架構的優勢,Kylin 對傳統方案具備降維打擊的能力,在某些場景中,一個 Kylin Cube 取代了數百個 Cognos Cube,不但管理運維的複雜度大大降低,並且具有更好的構建性能和查詢性能。
  5. 建設銀行、農業銀行等已經使用 Kylin + Hadoop 來構建下一代大數據分析平臺,解決擴容難和併發低的難題。

 

從這些用戶案例可以看出,社區用戶們不僅僅把 Kylin 當作功能單一的引擎使用,而是使用 Kylin 來替換傳統分析型數據倉庫的工作。下麵我們就來看一下什麼是數據倉庫吧。

 

數據倉庫的定義有很多,下麵是一個廣泛被接納的定義【1】:A data warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management’s decision-making process.

 

翻譯一下就是:數據倉庫是面向主題的、集成的、體現時間變化的,以及非易變的一組數據集合,以支持管理者做出關鍵決策。

 

對照到 Kylin 的能力:

  1. 在 Kylin 中,你可以為每個分析主題或場景,創建一個或多個OLAP Cube;每個 Cube 都是面向特定主題的。
  2. Kylin 與 Hadoop、 Hive、Spark、Kafka 等系統實現了無縫集成,你可以在大數據平臺上很容易地使用它。這也是為什麼 Kylin 很容易被接納的原因之一。
  3. Kylin會按照時間來分區載入數據,構建 Cube,然後保存為片段(也稱分區);對於維度表,Kylin 每次會生成快照。這些數據在分析過程中是穩定的,不會隨意改變。
  4. 當你在分析(上滾、下鑽等)過程中,Kylin 的數據是穩定一致的,所有層級的彙總結果都嚴格一致。
  5. Kylin 提供了 SQL 查詢介面和 JDBC/ODBC/HTTP API,用戶將其與 BI/可視化工具(如 Tableau 等)輕鬆連接。

從這裡可以看出,Kylin 的實現,與數據倉庫的關鍵特性不謀而合。事實上,當初設計 Kylin 的時候,團隊也是受了數據倉庫概念非常大的影響。

 

Architecture of Apache Kylin

經過社區開發者們的不斷努力,如今 Kylin 不再只是一個加速器,它提供了豐富完整的能力:友好的 Web 界面,嚮導式的設計器,自動化的任務生成和數據載入,高性能的查詢和存儲引擎,完善的 API 介面,完整的用戶許可權和安全控制等,結合 Hadoop 的分散式存儲和計算框架,它已經足以構成一個完整的分析型數據倉庫方案。在開源大數據技術中,Kylin 是獨一無二的,融合了傳統數據倉庫的經典理論和大數據的前沿技術;它設計優雅,架構可擴展可插拔,能夠適應從 GB 到 PB 甚至 EB 規模的數據。

 

2020 年 3 月,Kylin 社區通過討論,決定將 Kylin 的標語從「Extreme OLAP Engine for Big Data」更改為 「Analytical Data Warehouse for Big Data」【2】,以更加準確地描述 Kylin 的能力和定位,也更容易地讓用戶通過搜索引擎檢索到它,將它推介給更多用戶,應用於更多場景中。

 

一路走來,感謝各位的貢獻與支持,下一個五年,期待有更多創新!

 

史少鋒

Apache Kylin PMC Chair 

 

相關閱讀:

【1】 https://walkerscott.co/2017/10/data-warehouse/

【2】 https://kylin.apache.org/

 

瞭解更多大數據資訊,點擊進入Kyligence官網


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 此教程在win10 企業版 LSTC 1809 操作系統版本 17763.1098上驗證通過 準備階段: 確認以通過除密碼驗證外的其他方式進入系統,可以正常使用桌面 確認是否已經忘記密保問題,如忘記建議通過密保來重置密碼,參考微軟官方的建議 請按步驟,不要跳步 一切額外損失由您自行承擔 此處的 [ ...
  • 緩存穿透 緩存穿透是指查詢一個一定不存在的數據,由於緩存是不命中時被動寫的,並且出於容錯考慮,如果從存儲層查不到數據則不寫入緩存,這將導致這個不存在的數據每次請求都要到存儲層去查詢,失去了緩存的意義。在流量大時,可能DB就掛掉了,要是有人利用不存在的key頻繁攻擊我們的應用,這就是漏洞。 解決方案 ...
  • 本文存在 "視頻版本" ,請知悉 項目簡介 項目來源於: "https://gitee.com/PositiveMumu/CakesShop/tree/master" 這次分享一個蛋糕商場系統,還是很簡單的系統。界面簡潔但不粗糙。。 本系統基於 JSP+Servlet+C3P0+Mysql+JDBC ...
  • truncate 與 delete 的區別 truncate table :刪除內容、不刪除定義、釋放空間。 delete table : 刪除內容、不刪除定義、不釋放空間。 drop table :刪除內容和定義,釋放空間。 1、truncate table 表名,只能刪除表中全部數據。 dele ...
  • 在瞭解臟讀,不可重覆度,幻讀之前,首先要明白這三種情況的出現都是和資料庫併發事務有關聯的,如果所有的讀寫都按照隊列的形式進行,就不會出現問題。 名詞解析和解決方案 臟讀 臟讀又稱無效數據讀出(讀出了臟數據)。一個事務讀取另外一個事務還沒有提交的數據叫臟讀。 例如:事務T1修改了某個表中的一行數據,但 ...
  • `Redis key value`存儲系統。 Redis支持五種數據類型: (字元串) (列表) (hash表) (集合) (有序集合) 和 類似, 支持的數據類型更豐富、數據能持久化。 把數據全部存儲在記憶體中,斷電後會掛掉,數據不能超過記憶體大小。 而redis`數據會定期備份到硬碟上。 落地策略 ...
  • 1.在 資料庫內如何讓自動增加欄位從0開始 2.表中有A B C三列時,用SQL語句實現:當A列大於B列時選擇A列,否則選擇B列,當B列大於C列時選擇B,否則選擇C列 3. 是一個 存儲系統。支持五種數據類型: (1) (字元串) (2) (列表) (3) (`hash`表) (4) (集合) (5 ...
  • 很苦惱,PROD上的SSIS項目,日積月累的往裡部署,加包,也沒覺得是個什麼問題。 但是今天從需要從PROD上把這個項目中所有的包都down下來,VS居然報錯Out Of Memory,無論是直接連接SSIS Catelog或者用SSMS導出ispac均報錯。 解決方法很簡單,使用PowerShel ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...