記一次Apache Carbondata PR的經歷

来源:https://www.cnblogs.com/ityuanmanito/archive/2018/12/17/10130555.html
-Advertisement-
Play Games

前言 前段時間有幸接觸到Apache Carbondata,試用過程中發現了一個小小的問題,並且又很快的定位到了問題。然後在社區群里反映了下,負責人問願不願意提個JIRA,PR,然後我在沒有任何開源項目PR過的情況下竟然欣然答應了。(可能跟ZB心有關吧o(╥﹏╥)o)然後來說說這段美妙而又酸爽的經歷 ...


 前言

        前段時間有幸接觸到Apache Carbondata,試用過程中發現了一個小小的問題,並且又很快的定位到了問題。然後在社區群里反映了下,負責人問願不願意提個JIRA,PR,然後我在沒有任何開源項目PR過的情況下竟然欣然答應了。(可能跟ZB心有關吧o(╥﹏╥)o)然後來說說這段美妙而又酸爽的經歷吧【學習到了很多】!

 

簡介

        CarbonData是首個由中國公司發起並捐獻給Apache基金會的開源項目,於2017年4月正式成為Apache頂級項目,由華為開源並支持Hadoop的高性能列式存儲文件格式,其目的是提供一種統一的數據存儲方案,以一份數據同時支持大數據分析的多種應用場景,All In One,並通過多級索引、字典編碼、列式存儲等特性提升 I/O 掃描和計算性能,實現百億數據級秒級響應。目前最新版是1.5.1,集成了spark 2.1.0,2.2.1,2.3.2和Hadoop2.7.2,如果是其它版本,則需要自己編譯源碼!

 

 優勢

      1. 規模比impala+kudu大,基於MPP架構的系統很難超過100節點。

       2. 沒有進程,不需要單獨部署集群,在現有hadoop/spark/presto上即可以使用。

       3. 有索引,對多維過濾查詢不用全掃描。

       4. 有預匯聚,對OLAP

 

問題

      先拋出來試用過程中出現的問題。carbondata版本:1.5.0,spark 2.3.2     模式:本地 spark-shell

       例子:http://carbondata.apache.org/quick-start-guide.html

          

 

         

 

        問題描述:   

        上面是提交JIRA的時候提交的bug再現流程,總的就是在創建 carbondata 的時候,getOrCreateCarbonSession方法預設有兩個參數 storePath(存儲table數據) metaStorePath(t存儲able元數據),不傳的話會預設創建,但可能好多人第一次使用的時候不清楚,然後會根據quick start 傳一個空字元串,造成的結果就是每一步都顯示成功,但最終carbondata表結果查詢卻是空。通過查看源碼,在carbondata\integration\spark2模塊中發現 getOrCreateCarbonSession  方法的storePath,metaStorePath參數都只是簡單的 null 的判斷,所以造成了本地創建storePath存儲在空字元串中,導致最終查詢不出來結果。

       解決方案:

       使用 StringUtils.isNotBlank 替代原來的簡單 null 判斷。

流程

      1) 首先註冊Apache JIRA 賬號(沒有的話),註意在這一定要描述清楚你的問題的是什麼,屬於什麼類型(優先順序不一樣)  例子:https://issues.apache.org/jira/projects/CARBONDATA/issues/CARBONDATA-3119?filter=allopenissues

       2)fork ,https://github.com/apache/carbondata。

             

 

     

    3)a. git config:    

        $ git config --global user.email "[email protected]"     --輸入自己的git郵箱
        $ git config --global user.name "xxxxx"                     --輸入自己的git name

 

       b. git clone

       $ git clone https://github.com/apache/carbondata.git   --把源碼下載到自己置頂的本地目錄

 

      c.

      git remote add XXXX https://github.com/XXXX/carbondata.git   --跟fork下來的carbondata git倉庫關聯起來

 

     d.

     git fetch --all

     git checkout -b  master   --直接使用master分支(當然也可以創建自己的分支)

   

     e.

     git add 修改的文件

     git commit -m "本次commit說明"

     git rebase -i  分支名字                             -- 這個命令是用來修改 已提交的 commit  的說明的。就是開源項目都有自己嚴格的規範,不合格需要重新提交commit說明

 

   f:

    git push 遠程主機名 分支名     --提交到遠程倉庫  本地分支名和遠程分支名一致

  

  當然遠程提交之前確保測試用例是通過的,然後就可以直接在fork下來的倉庫中 點擊 Pull request了,一般這的說明都會有嚴格的模板例子,所以不要擅自改格式。提交了PR之後,就註意郵件消息等回覆,需要修改或者不規範的地方需要回工,知道最終被merge。然後恭喜你就成為一名Apache carbondata 的contributors之一了。 那麼樓主我自己很榮幸也是拿到了獎勵的華為 小天鵝 藍牙音箱,最主要的是榮譽感滿滿(雖然是小小的一次修改,但畢竟是第一次嘛,第一次還是很值得留念的博友們)

 

 項目編譯過程中遇到的問題:

  1)在windows編譯的的時候 maven 命令:

clean -DskipTests -Pbuild-with-format -Pspark-2.3 -Pwindows install

 

 

  2)首先需要本地安裝 thrift 0.93,並配置環境變數。  根據 thrift --version查看是否安裝成功

  3)import scala 包是有分組和組內排序的,註釋也有嚴格的格式。 不然編譯的時候會報 代碼style不對,編譯通不過的。

 

Apache carbondata官方網站:   http://carbondata.apache.org/

 

 

 

 

      

 

 

      


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一個叫team的表,裡面只有一個欄位name,一共有4 條紀錄,分別是a、b、c、d,對應四個球隊,現在四個球隊進行比賽,用一條SQL語句顯示所有可能的比賽組合。 ...
  • 什麼是游標 結果集,結果集就是select查詢之後返回的所有行數據的集合。 游標則是處理結果集的一種機制吧,它可以定位到結果集中的某一行,多數據進行讀寫,也可以移動游標定位到你所需要的行中進行操作數據。 一般複雜的存儲過程,都會有游標的出現,他的用處主要有: 定位到結果集中的某一行。 對當前位置的數 ...
  • Select * From A Where id in(select ID from A group by id having count(id)>3) ...
  • 添加Redis相關jar包 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-redis</artifactId> </dependency> applicati ...
  • 在本機登入mysql後,更改"mysql"資料庫里的"user"表裡的"host"項,從"localhost"改為'%'。 代碼如下 mysql> mysql>use mysql; mysql>select 'host' from user where user='root'; #查看mysql庫中 ...
  • 例如 1.ROUND() 格式為ROUND(y1,y2,y3) y1:要被四捨五入的數字y2:保留的小數位數 y3:為0,可以不寫,y1進行四捨五入,不為0則y1不進入四捨五入,如果y1有值就直接根據y2保留小數 SELECT ROUND(10.45,0) --結果為10.00SELECT ROUN ...
  • Solr集群常用的操作總結 之前搭建過SolrCloud和Solr單機版本,另外還有很多對Solr配置文件以及核心的操作,以下主要總結Solr集群中的常用操作,即在配置文件中正確設置ZK_HOST參數並且Zookeeper正確啟動才是集群模式,一臺電腦也可以開啟集群模式,這裡集群是不包含測試實例的 ...
  • 什麼是游標 結果集,結果集就是select查詢之後返回的所有行數據的集合。 游標則是處理結果集的一種機制吧,它可以定位到結果集中的某一行,多數據進行讀寫,也可以移動游標定位到你所需要的行中進行操作數據。 一般複雜的存儲過程,都會有游標的出現,他的用處主要有: 定位到結果集中的某一行。 對當前位置的數 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...