大數據小視角2:ORCFile與Parquet,開源圈背後的生意

来源:https://www.cnblogs.com/happenlee/archive/2018/05/25/9087273.html
-Advertisement-
Play Games

上一篇文章聊了聊基於PAX的混合存儲結構的RCFile,其實這裡筆者還瞭解一些八卦,RCfile的主力團隊都是來自中科院的童鞋在Facebook完成的,算是一個由華人主導的編碼項目。但是RCfile仍然存在一些缺陷,後續被 HortonWorks 盯上之後上馬了 ORCFile 格式,而老對頭 Cl ...


上一篇文章聊了聊基於PAX的混合存儲結構的RCFile,其實這裡筆者還瞭解一些八卦,RCfile的主力團隊都是來自中科院的童鞋在Facebook完成的,算是一個由華人主導的編碼項目。但是RCfile仍然存在一些缺陷,後續被HortonWorks盯上之後上馬了ORCFile格式,而老對頭Cloudera則緊抱Google大腿推出了Parquet格式。 其實二者需要解決的問題是殊途同歸的,但是不同的爹似乎導致了不太相同的命運。這篇文章,我們主要還是聊聊兩者的技術細節,再穿插一些開源圈的商業八卦~~~

1.ORCFile

Facebook在 2011年的 ICDE 會議之上發佈了RCFile。之後RCFile在Hive之中作為很好的列存儲模型被廣泛使用,雖然RCFile能夠很好的提升Hive的工作性能,但是在Facebook論文之中也提出了一些RCFile值得改進的地方。所以在2013年,HortonWorks就在RCFile的基礎之上開發出了ORCFile,並且ORCFlie很順利地在2015年成為Apache的頂級項目。接下來我們來看一看ORCFile相對於原本的RCFile解決了什麼樣的問題:

  • 列數據的類型感知:與RCFile之前對於列數據都統一為Blob數據不同,ORCFile可以感知列的數據類型,做出更為合理的數據壓縮選擇。顯然,這樣可以節省不少存儲資源。(Facebook論文之中已經提到這個思路了,但是發佈論文的時候還沒有實現,屬於一個next to do的工作

  • 嵌套數據類型支持:ORCFile可以在列數據之中插入Struct,Union,List,Map等數據,讓數據的操作更加靈活,也更加適合非結構化數據的存儲與處理。

  • 謂詞下推:這個算是RCFile原先功能的補強,在元數據層面增加了很多內容,來利用謂詞下推加速處理的過程。ORCFile自己稱之為輕量級索引,其實就是一些相較於RCFile更為詳細的統計數據。

存儲結構

首先,我們先來看看ORCFile的存儲結構。如下圖所示,ORCFile完全拋棄了原有RCFile之中所謂Row Group的概念。引入了三個新的組件,我們分別來看看對應組件的內容:
ORCFile的存儲結構

  • (1) stripe:stripe是ORC文件的主體,還記的上文提到RCfile之中的Row Group的大小為4MB,而stripe的大小膨脹到了250MB。(果真還是越大越好麽~~)至於為什麼選擇250MB這個大小的用意也很明顯,是為了與底層HDFS的塊大小契合,來減少MapReduce處理時可能會帶來的通信損耗。 stripe也分為具體三個部分:
  • Index Data:存儲每行的統計數據,預設是10000行的大小。Index Data在Strip的最前面,因它們只在使用謂詞向下推或讀者尋找特定行時載入。(這裡主要利用的是統計信息與布隆過濾器實現的
  • Row Data:實際存儲數據的單元,利用列存原理,對不同列可以實現不同壓縮方案,所有的列數據可以組成行數據。
  • Stripe Footer:存儲了每個列的編碼與位置。

  • (2) File Footer:部分包含Row data的佈局、類型信息、行數和每個列的統計信息。通過這塊可以篩選出需要讀取列的數據。至於類型消息,假如有如下的表定義:

      create table Foobar (
    myInt int,
     myMap map<string,
     struct<myString : string,
     myDouble: double>>,
     myTime timestamp
    );

    則定義的類型是如同下圖的嵌套模式:
    ORCFile的類型

  • (3) PostScript:這塊保存的內容就是ORCFile的元數據了,包括了使用的壓縮類型,各個數據的長度等。由於HDFS只支持Append的操作,所以,元數據放在文件的末尾是便於修改的。

上述就是ORCFile核心的存儲結構了。對比原先的RCFile,ORCFile沒有標新立異的之處,只是補足了數據壓縮與數據處理的短板。

2.Parquet

Google同樣在 2010年發佈了最新交互處理的數據系統Dremel,並且在Dremel之上構建了一個與Protocol Buffer相容的數據模型。基本上Google推出啥,開源圈一定會照貓畫虎的弄一個出來。於是同樣在2013年,ClouderaTwitter針對Dremel的數據模型為模板,推出了Parquet,Parquet同樣在2015年順利“畢業”,成為Apache的頂級項目。

其實Parquet與ORCFile像是孿生兄弟,許多設計的思路與細節是相同的,都是列存儲,數據壓縮那一套。所以這裡筆者不展開來講Parquet的技術細節了,而是結合Google的論文,來看一看Parquet與ORCFile最大的區別:數據模型

數據模型

為了相容Protocol Buffer的嵌套結構,Google的工程師設計了很精巧的模型來將Protocol Buffer的結構落地到實際的存儲結構之中。坦白說,這或許是Google內部為了相容Protocol Buffer而實現的一個很trade off的設計,所以看起來有點奇怪:

Protocol Buffer的數據格式

如上圖所示,通過Protocol Buffer定義了一個組合類型Document,其中required欄位是必須填寫的,optional欄位是可以省略的,而repeated欄位是可以重覆的欄位。其中I1與I2為示例數據。如何將上述的數據模型轉換為列存呢?我們接著往下看:

將嵌套欄位切分之後變為列存的模式

首先,將上述結構之中每一個欄位拆分出來,就可以變為列存儲的模式了。但是接下來的問題在於如何處理非結構化數據之中repeated與optional欄位。這裡是通過Repetition LevelDefinition Level才能來完整的還原數據的結構。

  • Repetition Level:顧名思義,記錄了該列的值是在哪一個級別的欄位上重覆的。
  • Definition Level:對於非NULL值並沒有什麼意義,因為非NULL值Definition Level一定是相同的。(顯然是可以壓縮存儲)記錄了該列的值是在哪一個級別上開始作為NULL值存儲的。

通過上述的兩個值,便可以通過有限狀態機來還原Protocol Buffer格式所定義的數據結構,落地到實際的存儲之中。(這裡涉及到列存儲的跳轉,詳細的內容可以參考Dremel論文的原文

上述Parquet的核心就在於:通過嵌套的數據模型設計來規避Join操作和掃描最少的列存儲。下圖是Parquet的數據模型,可以看出除了列存的模式之外,其餘與ORCFile大同小異,筆者在這裡就不進贅述了:

Parquet的數據結構

3.ORCfile與Parquet的比較

目前兩者都作為Apache的頂級項目來進行維護,但是無論是設計的思路還是合理性都是ORCFile更為優秀。簡單來說,對於OLAP的應用,本身就是需要通過ETL的流程進行數據的格式覆寫,對於Protocol Buffer的相容的必要性這塊,筆者是存疑的。

但是或許是因為背後所主導的力量不同,畢竟是出身名門,在各個存儲系統的支持上,和實際的運用之中,Parquet還是占了很大的優勢。縱觀It產業的歷史發展,從來都不是因為技術優勢而能夠贏得賽跑的。從ORCFile與Parquet目前在開源上的不同境遇來看,也符合兩家公司的在資本市場上的表現吧。

Hortonworks市值為13.63億美元

Cloudera市值為20.49億美元

但是無論商業競逐上的勝利與失敗,能夠開源好的技術來便利開發者與使用者,應該都是一件功德無量的事情。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 原文鏈接地址:https://www.cnblogs.com/wangmeijian/p/4562304.html :first-child 選擇器用於選取屬於其父元素的首個子元素的指定選擇器。——w3school 嗯,乍一看好像說的不是很明白,因此這個選擇器很容易讓人誤解,通常會有兩種誤解:誤解一 ...
  • 一、盒模型 一個web頁面由許多html元素組成,而每一個html元素都可以表示為一個矩形的盒子,CSS盒模型正是描述這些矩形盒子的存在。 MDN的描述: When laying out a document, the browser's rendering engine represents ea ...
  • 網上看了許多,大多數都是nginx做成靜態項目,但是這樣局限性太多,與Web項目相比許多服務端想做的驗證都很麻煩,於是開始了艱難的探索之路,終於在不經意間試出來了,一把辛酸。。。 正常的打包就不說了。至於package.json裡面這個hompage的參數,無所謂,最後沒有用到。項目用的庫就是這些, ...
  • 深入css佈局(3) — margin問題與格式化上下文 在css知識體系中,除了css選擇器,樣式屬性等基礎知識外,css佈局相關的知識才是css比較核心和重要的點。今天我們來深入學習一下css佈局相關的知識。 css佈局篇已經講個2篇了,前面我們深入講解了 盒模型與box-sizing, 元素分 ...
  • 從input框獲取焦點到,輸入值,失去焦點這個過程所有事件,以及一些特點; 1、過程 onfocus -> 鍵盤輸入 -> onkeydown -> onkeypress -> onkeyup -> oninput -> 失去焦點 -> onchange -> onblur 如下,奉上代碼; 執行結 ...
  • 1.鏈接到某頁<input type="button" name="Submit" value="確 定" class="btn" onclick="location.href='filename.html'" />2.返回(等同後退)<input name="Submit2" type="butt ...
  • function loadIframe(url) { //獲取url鏈接 var u = window.location.href; //因為每次獲取的鏈接中都有之前的舊錨點, //所以需要把#之後的舊錨點去掉再來加新的錨點(即傳入的url參數) var end = u.indexOf("#"); ... ...
  • 領域驅動(1)認識瞭解什麼是領域驅動 廢話 領域驅動設計已經出現很早了,說實話很早以前的我很不喜歡看書、不論是pdf還是書本、買過的書籍還是有幾本的,這僅有的幾本書還是因為公司的業務或者某項技術遇到瓶頸需要自己和團隊進行突破的時候用來填充自己的大腦用的,當然這是被動的,畢竟:生下來、活下去很重要的。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...