集算器協助Java處理多樣性數據源之Hive

来源:http://www.cnblogs.com/raqsoft/archive/2016/01/15/5132226.html
-Advertisement-
Play Games

Java使用jdbc連接Hive比較簡單,但是Hive的計算能力相對於其它資料庫的SQL而言較弱,要完成非常規的計算需要將數據取出後用Java進一步計算,編程比較麻煩。使用集算器配合Java編程,可以減少Java使用Hive時要進行複雜計算工作量。下麵我們通過例子來看一下具體作法:Hive中的or....


    Java使用jdbc連接Hive比較簡單,但是Hive的計算能力相對於其它資料庫的SQL而言較弱,要完成非常規的計算需要將數據取出後用Java進一步計算,編程比較麻煩。

    使用集算器配合Java編程,可以減少Java使用Hive時要進行複雜計算工作量。下麵我們通過例子來看一下具體作法:Hive中的orders表中保存了訂單的明細數據,需要計算同期比和比上期。數據如下:

    ORDERID CLIENT SELLERID AMOUNT ORDERDATE
    1 UJRNP 17 392 2008/11/2 15:28
    2 SJCH 6 4802 2008/11/9 15:28
    3 UJRNP 16 13500 2008/11/5 15:28
    4 PWQ 9 26100 2008/11/8 15:28
    5 PWQ 11 4410 2008/11/12 15:28
    6 HANAR 18 6174 2008/11/7 15:28
    7 EGU 2 17800 2008/11/6 15:28
    8 VILJX 7 2156 2008/11/9 15:28
    9 JAYB 14 17400 2008/11/12 15:28
    10 JAXE 19 19200 2008/11/12 15:28
    11 SJCH 7 13700 2008/11/10 15:28
    12 QUICK 11 21200 2008/11/13 15:28
    13 HL 12 21400 2008/11/21 15:28
    14 JAYB 1 7644 2008/11/16 15:28
    15 MIP 16 3234 2008/11/19 15:28
    …

    比上期是指用當期數據和上期數據進行比較,以月作為時間間隔,比如用4月份的銷售額除以3月份的銷售額,這稱為4月份的比上期。同期比是指用當期數據和上一周期的同期數據進行比較,比如2014年4月份的銷售額除以2013年4月份的銷售額。因為Hive沒有視窗函數,所以難以完成這個計算需求,必須編寫嵌套的SQL子查詢,而Hive對子查詢的支持也不夠完備,這個計算目標經常需要放在外部實現。集算器esProc則可以比較容易的實現,具體代碼如下:

 

    A1:使用定義好的Hive數據源,通過jdbc連接資料庫。

    A2:按時間段從資料庫查詢數據,begin和end是外部參數,比如begin=”2011-01-01 00:00:00″,end=”2014-07-08 00:00:00″(即當天日期,可用now()函數獲取)。

    A3:對訂單按照年份和月份進行分組,並彙總求得每月的銷售額。

    A4:增加一個新的欄位lrr,即按月比上期,其表達式為mAmount/mAmount[-1]。代碼中mAmount代表當期銷售額,mAmount[-1]代表上期銷售額。需要註意的是,初始月份的比上期值為空(即2011年1月)。

    A5:將A4按照月、年排序,以便計算同期比。完整的代碼應當是:=A4.sort(m,y),由於A4本來就是按年排序的,因此只需按月排序就可以達到目的,即A4.sort(m),這樣性能也高。A6: 增加一個新的欄位yoy,即月銷售額的同期比,其表達式為if(m==m[-1],mAmount/mAmount[-1],null),這表示月份相同時才進行同期比計算。需要註意的是,初始年份(即2011年)各月份的同期比為空。

    A7:將A6按照年逆序月正序進行排序。需要註意的是,數據只到2014年7月為止。結果如下:

    A8:關閉Hive資料庫連接。

    A9:返回結果。

    在Java程式中使用esProc JDBC調用這段程式獲得結果的代碼如下:(將上述esProc程式保存為test.dfx):
    //建立esProc jdbc連接
     Class.forName(“com.esproc.jdbc.InternalDriver”);
     con= DriverManager.getConnection(“jdbc:esproc:local://”);
     //調用esProc 程式(存儲過程),其中test是dfx的文件名
     st =(com.esproc.jdbc.InternalCStatement)con.prepareCall(“call test(?,?)”);
     //設置參數
     st.setObject(1,”2011-01-01 00:00:00″);//begin
     st.setObject(1,”2014-07-08 00:00:00″);//end
     //執行esProc存儲過程
     st.execute();
     //獲取結果集
     ResultSet set = st.getResultSet();

    集算器訪問Hive和訪問普通資料庫一樣,配好Hive的JDBC即可,這裡不再贅述。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前言 大家應該都知道Memcached要想實現分散式只能在客戶端來完成,目前比較流行的是通過一致性hash演算法來實現.常規的方法是將server的hash值與server的總台數進行求餘,即hash%N,這種方法的弊端是當增減伺服器時,將會有較多的緩存需要被重新分配且會造成緩存分配不均勻的情況(有....
  • 1. Get(即使用QueryString顯式傳遞) 方式:在url後面跟參數。 特點:簡單、方便。 缺點:字元串長度最長為255個字元;數據泄漏在url中。 適用數據:簡單、少量、關鍵的數據。 適用範圍:傳遞給自己、傳遞給另一個目標頁面;常用於2個頁面間傳遞數據。 用法:例如:url後加?User...
  • 自網站誕生以來,響應速度/響應時間一直都是大家關心的話題,而速度慢乃是網站的一個殺手,正當大家以為四核和寬頻能力的提升能夠解決這些問題時,Wi-Fi和移動設備為熱點移動互聯網又悄然興起。 在2006年,Amazon曾做過一個報道,響應時間每提高100ms,他們便會增加1%的收入。優化的價值已顯而易....
  • 解決方案中有一個 Project 是 Windows Service,用來從消息隊列中取出事件,發送通知電郵;UI是一個MVC網站,兩個Project都引用了同一個類庫,這個類庫引用了第三方的生成PDF組件 Pechkin;我每次生成網站時,Pechkin的7個DLL都會自動拷貝到 bin 目錄,7...
  • Orchard是支持多種資料庫的如果是個人站長推薦使用MySql作為運行資料庫,雖然SqlServer更為強大,但總覺得SqlServer好重啊,一裝就是幾個G。最近的版本在使用MySql建庫時卻會出現,http://yjx.in/System.Reflection.TargetInvocation...
  • python 從資料庫表生成model找了很久才找到這個,我是新手...現在已有建好的資料庫,需要基於原有數據做數據分析的web應用,我選擇python+Tornado,由於不想寫SQL語句,就想偷個懶1、安裝工具1 ningjian@freegodly:~/code/py/django/logcl...
  • 1.檢測Apache是否支持mod_rewrite通過php提供的phpinfo()函數查看環境配置,通過Ctrl+F查找到“Loaded Modules”,其中列出了所有apache2handler已經開啟的模塊,如果裡面包括“mod_rewrite”,則已經支持,不再需要繼續設置。如果沒有開啟“...
  • erase()方法是刪除iterator指定的節點 但是要註意的是在執行完此函數的時候iterator也被銷毀了 這樣的話關於iterator的操作就會報錯 以下是關於erase()方法的正確使用正確使用方法1 : std::list List;std::list::iterator itList;...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...