集算器協助Java處理多樣性數據源之Hive

-Advertisement-

Java使用jdbc連接Hive比較簡單，但是Hive的計算能力相對於其它資料庫的SQL而言較弱，要完成非常規的計算需要將數據取出後用Java進一步計算，編程比較麻煩。使用集算器配合Java編程，可以減少Java使用Hive時要進行複雜計算工作量。下麵我們通過例子來看一下具體作法：Hive中的or....

Java使用jdbc連接Hive比較簡單，但是Hive的計算能力相對於其它資料庫的SQL而言較弱，要完成非常規的計算需要將數據取出後用Java進一步計算，編程比較麻煩。

使用集算器配合Java編程，可以減少Java使用Hive時要進行複雜計算工作量。下麵我們通過例子來看一下具體作法：Hive中的orders表中保存了訂單的明細數據，需要計算同期比和比上期。數據如下：

    ORDERID CLIENT SELLERID AMOUNT ORDERDATE
    1 UJRNP 17 392 2008/11/2 15:28
    2 SJCH 6 4802 2008/11/9 15:28
    3 UJRNP 16 13500 2008/11/5 15:28
    4 PWQ 9 26100 2008/11/8 15:28
    5 PWQ 11 4410 2008/11/12 15:28
    6 HANAR 18 6174 2008/11/7 15:28
    7 EGU 2 17800 2008/11/6 15:28
    8 VILJX 7 2156 2008/11/9 15:28
    9 JAYB 14 17400 2008/11/12 15:28
    10 JAXE 19 19200 2008/11/12 15:28
    11 SJCH 7 13700 2008/11/10 15:28
    12 QUICK 11 21200 2008/11/13 15:28
    13 HL 12 21400 2008/11/21 15:28
    14 JAYB 1 7644 2008/11/16 15:28
    15 MIP 16 3234 2008/11/19 15:28
    …

比上期是指用當期數據和上期數據進行比較，以月作為時間間隔，比如用4月份的銷售額除以3月份的銷售額，這稱為4月份的比上期。同期比是指用當期數據和上一周期的同期數據進行比較，比如2014年4月份的銷售額除以2013年4月份的銷售額。因為Hive沒有視窗函數，所以難以完成這個計算需求，必須編寫嵌套的SQL子查詢，而Hive對子查詢的支持也不夠完備，這個計算目標經常需要放在外部實現。集算器esProc則可以比較容易的實現，具體代碼如下：

A1：使用定義好的Hive數據源,通過jdbc連接資料庫。

A2：按時間段從資料庫查詢數據，begin和end是外部參數，比如begin=”2011-01-01 00:00:00″，end=”2014-07-08 00:00:00″（即當天日期，可用now()函數獲取）。

A3:對訂單按照年份和月份進行分組，並彙總求得每月的銷售額。

A4:增加一個新的欄位lrr，即按月比上期，其表達式為mAmount/mAmount[-1]。代碼中mAmount代表當期銷售額，mAmount[-1]代表上期銷售額。需要註意的是，初始月份的比上期值為空（即2011年1月）。

A5:將A4按照月、年排序，以便計算同期比。完整的代碼應當是：=A4.sort(m,y)，由於A4本來就是按年排序的，因此只需按月排序就可以達到目的，即A4.sort(m)，這樣性能也高。A6: 增加一個新的欄位yoy，即月銷售額的同期比，其表達式為if(m==m[-1],mAmount/mAmount[-1],null)，這表示月份相同時才進行同期比計算。需要註意的是，初始年份（即2011年）各月份的同期比為空。

A7：將A6按照年逆序月正序進行排序。需要註意的是，數據只到2014年7月為止。結果如下：

A8：關閉Hive資料庫連接。

A9：返回結果。

    在Java程式中使用esProc JDBC調用這段程式獲得結果的代碼如下：（將上述esProc程式保存為test.dfx）：
    //建立esProc jdbc連接
     Class.forName(“com.esproc.jdbc.InternalDriver”);
     con= DriverManager.getConnection(“jdbc:esproc:local://”);
     //調用esProc 程式（存儲過程），其中test是dfx的文件名
     st =(com.esproc.jdbc.InternalCStatement)con.prepareCall(“call test(?,?)”);
     //設置參數
     st.setObject(1,”2011-01-01 00:00:00″);//begin
     st.setObject(1,”2014-07-08 00:00:00″);//end
     //執行esProc存儲過程
     st.execute();
     //獲取結果集
     ResultSet set = st.getResultSet();

集算器訪問Hive和訪問普通資料庫一樣，配好Hive的JDBC即可，這裡不再贅述。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

一致性Hash演算法在Memcached中的應用

前言大家應該都知道Memcached要想實現分散式只能在客戶端來完成,目前比較流行的是通過一致性hash演算法來實現.常規的方法是將server的hash值與server的總台數進行求餘,即hash%N,這種方法的弊端是當增減伺服器時,將會有較多的緩存需要被重新分配且會造成緩存分配不均勻的情況(有....
ASP.NET多種不同頁面間數據傳遞的方法

1. Get(即使用QueryString顯式傳遞) 方式：在url後面跟參數。特點：簡單、方便。缺點：字元串長度最長為255個字元；數據泄漏在url中。適用數據：簡單、少量、關鍵的數據。適用範圍：傳遞給自己、傳遞給另一個目標頁面；常用於2個頁面間傳遞數據。用法：例如：url後加?User...
度量Web性能的關鍵指標

自網站誕生以來，響應速度/響應時間一直都是大家關心的話題，而速度慢乃是網站的一個殺手，正當大家以為四核和寬頻能力的提升能夠解決這些問題時，Wi-Fi和移動設備為熱點移動互聯網又悄然興起。在2006年，Amazon曾做過一個報道，響應時間每提高100ms，他們便會增加1%的收入。優化的價值已顯而易....
VS2013 生成事件，刪除不必要的DLL

解決方案中有一個 Project 是 Windows Service，用來從消息隊列中取出事件，發送通知電郵；UI是一個MVC網站，兩個Project都引用了同一個類庫，這個類庫引用了第三方的生成PDF組件 Pechkin；我每次生成網站時，Pechkin的7個DLL都會自動拷貝到 bin 目錄，7...
Orchard MySql 修正版下載

Orchard是支持多種資料庫的如果是個人站長推薦使用MySql作為運行資料庫，雖然SqlServer更為強大，但總覺得SqlServer好重啊，一裝就是幾個G。最近的版本在使用MySql建庫時卻會出現，http://yjx.in/System.Reflection.TargetInvocation...
python 從資料庫表生成model

python 從資料庫表生成model找了很久才找到這個，我是新手...現在已有建好的資料庫，需要基於原有數據做數據分析的web應用，我選擇python+Tornado,由於不想寫SQL語句，就想偷個懶1、安裝工具1 ningjian@freegodly:~/code/py/django/logcl...
開啟PHP的偽靜態

1.檢測Apache是否支持mod_rewrite通過php提供的phpinfo()函數查看環境配置，通過Ctrl+F查找到“Loaded Modules”，其中列出了所有apache2handler已經開啟的模塊，如果裡面包括“mod_rewrite”，則已經支持，不再需要繼續設置。如果沒有開啟“...
STL中list的erase()方法

erase（）方法是刪除iterator指定的節點但是要註意的是在執行完此函數的時候iterator也被銷毀了這樣的話關於iterator的操作就會報錯以下是關於erase（）方法的正確使用正確使用方法1 : std::list List;std::list::iterator itList;...