記一次Apache Carbondata PR的經歷

-Advertisement-

前言前段時間有幸接觸到Apache Carbondata，試用過程中發現了一個小小的問題，並且又很快的定位到了問題。然後在社區群里反映了下，負責人問願不願意提個JIRA,PR，然後我在沒有任何開源項目PR過的情況下竟然欣然答應了。（可能跟ZB心有關吧o(╥﹏╥)o）然後來說說這段美妙而又酸爽的經歷 ...

前言

前段時間有幸接觸到Apache Carbondata，試用過程中發現了一個小小的問題，並且又很快的定位到了問題。然後在社區群里反映了下，負責人問願不願意提個JIRA,PR，然後我在沒有任何開源項目PR過的情況下竟然欣然答應了。（可能跟ZB心有關吧o(╥﹏╥)o）然後來說說這段美妙而又酸爽的經歷吧【學習到了很多】！

簡介

CarbonData是首個由中國公司發起並捐獻給Apache基金會的開源項目，於2017年4月正式成為Apache頂級項目，由華為開源並支持Hadoop的高性能列式存儲文件格式，其目的是提供一種統一的數據存儲方案，以一份數據同時支持大數據分析的多種應用場景，All In One，並通過多級索引、字典編碼、列式存儲等特性提升 I/O 掃描和計算性能，實現百億數據級秒級響應。目前最新版是1.5.1，集成了spark 2.1.0，2.2.1，2.3.2和Hadoop2.7.2，如果是其它版本，則需要自己編譯源碼！

優勢

1. 規模比impala+kudu大，基於MPP架構的系統很難超過100節點。

2. 沒有進程，不需要單獨部署集群，在現有hadoop/spark/presto上即可以使用。

3. 有索引，對多維過濾查詢不用全掃描。

4. 有預匯聚，對OLAP

問題

先拋出來試用過程中出現的問題。carbondata版本：1.5.0，spark 2.3.2 模式：本地 spark-shell

例子：http://carbondata.apache.org/quick-start-guide.html

問題描述：

上面是提交JIRA的時候提交的bug再現流程，總的就是在創建 carbondata 的時候，getOrCreateCarbonSession方法預設有兩個參數 storePath（存儲table數據） metaStorePath（t存儲able元數據），不傳的話會預設創建，但可能好多人第一次使用的時候不清楚，然後會根據quick start 傳一個空字元串，造成的結果就是每一步都顯示成功，但最終carbondata表結果查詢卻是空。通過查看源碼，在carbondata\integration\spark2模塊中發現 getOrCreateCarbonSession 方法的storePath，metaStorePath參數都只是簡單的 null 的判斷，所以造成了本地創建storePath存儲在空字元串中，導致最終查詢不出來結果。

解決方案：

使用 StringUtils.isNotBlank 替代原來的簡單 null 判斷。

流程

1) 首先註冊Apache JIRA 賬號（沒有的話），註意在這一定要描述清楚你的問題的是什麼，屬於什麼類型（優先順序不一樣）例子：https://issues.apache.org/jira/projects/CARBONDATA/issues/CARBONDATA-3119?filter=allopenissues

2）fork ，https://github.com/apache/carbondata。

3）a. git config:

$ git config --global user.email "[email protected]" --輸入自己的git郵箱
$ git config --global user.name "xxxxx" --輸入自己的git name

b. git clone

$ git clone https://github.com/apache/carbondata.git --把源碼下載到自己置頂的本地目錄

git remote add XXXX https://github.com/XXXX/carbondata.git --跟fork下來的carbondata git倉庫關聯起來

git fetch --all

git checkout -b master --直接使用master分支（當然也可以創建自己的分支）

git add 修改的文件

git commit -m "本次commit說明"

git rebase -i 分支名字 -- 這個命令是用來修改已提交的 commit 的說明的。就是開源項目都有自己嚴格的規範，不合格需要重新提交commit說明

git push 遠程主機名分支名 --提交到遠程倉庫本地分支名和遠程分支名一致

當然遠程提交之前確保測試用例是通過的，然後就可以直接在fork下來的倉庫中點擊 Pull request了，一般這的說明都會有嚴格的模板例子，所以不要擅自改格式。提交了PR之後，就註意郵件消息等回覆，需要修改或者不規範的地方需要回工，知道最終被merge。然後恭喜你就成為一名Apache carbondata 的contributors之一了。那麼樓主我自己很榮幸也是拿到了獎勵的華為小天鵝藍牙音箱，最主要的是榮譽感滿滿（雖然是小小的一次修改，但畢竟是第一次嘛，第一次還是很值得留念的博友們）

項目編譯過程中遇到的問題：

1）在windows編譯的的時候 maven 命令：

clean -DskipTests -Pbuild-with-format -Pspark-2.3 -Pwindows install

2）首先需要本地安裝 thrift 0.93，並配置環境變數。根據 thrift --version查看是否安裝成功

3）import scala 包是有分組和組內排序的，註釋也有嚴格的格式。不然編譯的時候會報代碼style不對，編譯通不過的。

Apache carbondata官方網站： http://carbondata.apache.org/

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

用一條SQL語句顯示所有可能的比賽組合

一個叫team的表，裡面只有一個欄位name，一共有4 條紀錄，分別是a、b、c、d，對應四個球隊，現在四個球隊進行比賽，用一條SQL語句顯示所有可能的比賽組合。 ...
SQLServer之創建Transact-SQL游標

什麼是游標結果集，結果集就是select查詢之後返回的所有行數據的集合。游標則是處理結果集的一種機制吧，它可以定位到結果集中的某一行，多數據進行讀寫，也可以移動游標定位到你所需要的行中進行操作數據。一般複雜的存儲過程，都會有游標的出現，他的用處主要有：定位到結果集中的某一行。對當前位置的數 ...
查詢表A中存在ID重覆三次以上的記錄

Select * From A Where id in(select ID from A group by id having count(id)>3) ...
Redis與SpringBoot整合

添加Redis相關jar包 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-redis</artifactId> </dependency> applicati ...
轉：mysql遠程連接 Host * is not allowed to connect to this MySQL server

在本機登入mysql後，更改"mysql"資料庫里的"user"表裡的"host"項，從"localhost"改為'%'。代碼如下 mysql> mysql>use mysql; mysql>select 'host' from user where user='root'; #查看mysql庫中 ...
一：SqlServer中的 CEILING函數和 FLOOR函數以及ROUND()

例如 1.ROUND() 格式為ROUND(y1,y2,y3) y1：要被四捨五入的數字y2：保留的小數位數 y3：為0，可以不寫,y1進行四捨五入，不為0則y1不進入四捨五入，如果y1有值就直接根據y2保留小數 SELECT ROUND(10.45,0) --結果為10.00SELECT ROUN ...
Solr集群常用的操作總結

Solr集群常用的操作總結之前搭建過SolrCloud和Solr單機版本，另外還有很多對Solr配置文件以及核心的操作，以下主要總結Solr集群中的常用操作，即在配置文件中正確設置ZK_HOST參數並且Zookeeper正確啟動才是集群模式，一臺電腦也可以開啟集群模式，這裡集群是不包含測試實例的 ...
SQLServer之ISO游標使用

什麼是游標結果集，結果集就是select查詢之後返回的所有行數據的集合。游標則是處理結果集的一種機制吧，它可以定位到結果集中的某一行，多數據進行讀寫，也可以移動游標定位到你所需要的行中進行操作數據。一般複雜的存儲過程，都會有游標的出現，他的用處主要有：定位到結果集中的某一行。對當前位置的數 ...