集算器協助java處理多樣性數據源之HDFS

来源:http://www.cnblogs.com/raqsoft/archive/2016/01/19/5141165.html
-Advertisement-
Play Games

Java通過Hadoop提供的API訪問HDFS不算困難,但針對其上文件的計算就比較麻煩。比如分組、過濾、排序等計算,用java來實現都比較複雜。集算器esproc能很好地協助java解決計算問題,同時也封裝了HDFS的訪問,藉助esproc可以讓java加強HDFS上文件的計算能力,結構化半結構....


    Java通過Hadoop提供的API訪問HDFS不算困難,但針對其上文件的計算就比較麻煩。比如分組、過濾、排序等計算,用java來實現都比較複雜。集算器esproc能很好地協助java解決計算問題,同時也封裝了HDFS的訪問,藉助esproc可以讓java加強HDFS上文件的計算能力,結構化半結構化數據計算都可以輕鬆完成。下麵我們通過例子來看一下具體作法。

    HDFS中的文本文件employee.gz中保存了員工數據。我們要讀取員工信息,從中找出1981年1月1日(含)之後出生的女員工。文本文件在HDFS中以gzip方式壓縮,並且無法一次裝入記憶體。

    文本文件empolyee.gz的數據如下:

    EID NAME SURNAME GENDER STATE BIRTHDAY HIREDATE DEPT SALARY
    1 Rebecca Moore F California 1974-11-20 2005-03-11 R&D 7000
    2 Ashley Wilson F New York 1980-07-19 2008-03-16 Finance 11000
    3 Rachel Johnson F New Mexico 1970-12-17 2010-12-01 Sales 9000
    4 Emily Smith F Texas 1985-03-07 2006-08-15 HR 7000
    5 Ashley Smith F Texas 1975-05-13 2004-07-30 R&D 16000
    6 Matthew Johnson M California 1984-07-07 2005-07-07 Sales 11000
    7 Alexis Smith F Illinois 1972-08-16 2002-08-16 Sales 9000
    8 Megan Wilson F California 1979-04-19 1984-04-19 Marketing 11000
    9 Victoria Davis F Texas 1983-12-07 2009-12-07 HR 3000
    10 Ryan Johnson M Pennsylvania 1976-03-12 2006-03-12 R&D 13000
    11 Jacob Moore M Texas 1974-12-16 2004-12-16 Sales 12000
    12 Jessica Davis F New York 1980-09-11 2008-09-11 Sales 7000
    13 Daniel Davis M Florida 1982-05-14 2010-05-14 Finance 10000
    …

    實現的思路是:用Java程式調用集算器腳本,讀取和計算數據,之後將結果以ResultSet的方式返回給Java程式。

    首先,要在集算器的集成開發環境中編寫和調試程式,準備工作是將Hadoop核心包及配置包複製到“集算器安裝目錄\esProc\lib”中,如:commons-configuration-1.6.jar、commons-lang-2.4.jar、hadoop-core-1.0.4.jar(Hadoop1.0.4)。

    由於集算器支持動態表達式解析和求值,使得Java程式可以像使用sql那樣,靈活的過濾HDFS文件中的數據。例如,我們需要查詢1981年1月1日(含)之後出生的女員工,esProc程式可以從外部獲得一個輸入參數“where”作為條件,如下圖:

    where是個字串,取值是:BIRTHDAY>=date(1981,1,1) && GENDER==”F”。

    集算器esProc代碼如下:

    A1:定義一個HDFS文件對象游標,第一行是標題,欄位分隔符預設是tab。壓縮方式由文件尾碼決定,這裡是gzip格式,集算器也支持其他壓縮方式。UTF-8是字元集,預設使用jvm的字元集。

    A2:按照條件過濾游標。這裡使用巨集來實現動態解析表達式,其中的where就是傳入參數。集算器將先計算${…}里的表達式,將計算結果作為巨集字元串值替換${…}之後解釋執行。這個例子中最終執行的是:=A1.select(BIRTHDAY>=date(1981,1,1) && GENDER==”F”)。

    A3:返回游標。

    過濾條件發生變化時不用改變代碼,只需改變where參數即可。例如,條件變為:查詢1981年1月1日(含)之後出生的女員工,或者NAME+SURNAME等於”RebeccaMoore”的員工。Where的參數值可以寫為:BIRTHDAY>=date(1981,1,1) && GENDER==”F” || NAME+SURNAME==”RebeccaMoore”。

    在Java程式中使用esProc JDBC調用這段程式獲得結果的代碼如下:(將上述esProc程式保存為test.dfx,並把HDFS需要的Hadoop的jar包放到java的classpath中):
    //建立esProc jdbc連接
     Class.forName(“com.esproc.jdbc.InternalDriver”);
     con= DriverManager.getConnection(“jdbc:esproc:local://”);
     //調用esProc 程式(存儲過程),其中test是dfx的文件名
     st =(com.esproc.jdbc.InternalCStatement)con.prepareCall(“call test(?)”);
     //設置參數
     st.setObject(1,” BIRTHDAY>=date(1981,1,1) && GENDER==\”F\” ||NAME+SURNAME==\”RebeccaMoore\”");//參數就是動態的過濾條件
     //執行esProc存儲過程
     st.execute();
     //獲取結果集:符合條件的員工集合
     ResultSet set = st.getResultSet();


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 近日學習了延遲執行的幾種方法,分享一下. 1.performSelector(NSObject)方法 2.NSTimer方法 3.GCD方法 4.sleep(NSThread)方法延遲執行代碼:- (void)delayDo : (id)sender { NSLog(@"do:%@",send...
  • 如上圖右上角,菜單選項的編輯,第一種代碼實現方式如下:package com.example.menu;import android.os.Bundle;import android.app.Activity;import android.view.Menu;import android.view....
  • 一、快速提高Android開發效率的Web工具在Google的廣大支持下,便捷開發Android程式的Native工具層出不窮。其實Android開發涉及到的範圍也不小,一些Web工具有時候也會帶來事半功倍的效果。二、Android App 性能優化實踐本文記錄了Android App優化需要用到的...
  • TabLayout——選項卡佈局,通過選項卡的方式切換view並不是material design中才有的新概念,選項卡既可以固定,也可以滾動顯示效果如下: 通過addTab方法可以實現選項卡的動態添加:tabLayout.addTab(tabLayout.newTab().setText...
  • 不管怎樣,我相信,每一個我遇到的難題,對我來說都是一次提升的機會。 作為一隻C++,混SQL群壓力還是蠻大的。
  • 1.http://www.cnblogs.com/huangxincheng/archive/2012/02/18/2356595.html
  • 目錄讀前註意與概述動態SQL簡介使用EXCUTE IMMEDIATE語句處理DDL和DCL語句處理DML語句處理單行查詢處理多行查詢在動態SQL中使用批量綁定讀前註意與概述 當編寫PL/SQL塊時,靜態SQL語句只能完成一些固定任務。為了使得PL/SQL塊可以靈活的處理SQL語句,需要使用動態SQ....
  • 開窗函數與聚合函數一樣,都是對行的集合組進行聚合計算。它用於為行定義一個視窗(這裡的視窗是指運算將要操作的行的集合),它對一組值進行操作,不需要使用GROUP BY子句對數據進行分組,能夠在同一行中同時返回基礎行的列和聚合列。開窗函數的調用格式為:函數名(列) OVER(選項)。第一大類:聚合開窗函...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...