通過JDBC連接hive

来源:http://www.cnblogs.com/gridmix/archive/2016/01/05/5102725.html
-Advertisement-
Play Games

本文通過java代碼使用jdbc連接hive,詳細解釋了其操作步驟與問題,適用於hive1.2版本


       hive是大數據技術簇中進行數據倉庫應用的基礎組件,是其它類似數據倉庫應用的對比基準。基礎的數據操作我們可以通過腳本方式以hive-client進行處理。若需要開發應用程式,則需要使用hive的jdbc驅動進行連接。本文以hive wiki上示例為基礎,詳細講解瞭如何使用jdbc連接hive資料庫。hive wiki原文地址:

https://cwiki.apache.org/confluence/display/Hive/HiveClient

https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients#HiveServer2Clients-JDBC

      首先hive必須以服務方式啟動,我們平臺選用hdp平臺,hdp2.2平臺預設啟動時hive server2 模式。hiveserver2是比hiveserver更高級的服務模式,提供了hiveserver不能提供的併發控制、安全機制等高級功能。伺服器啟動以不同模式啟動,客戶端代碼的編碼方式也略有不同,具體見代碼。

     服務啟動完成之後,在eclipse環境中編輯代碼。代碼如下:

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager; 

public class HiveJdbcClient {

  /*hiverserver 版本使用此驅動*/Technorati 標記: ,,
  //private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";
  /*hiverserver2 版本使用此驅動*/
  private static String driverName = "org.apache.hive.jdbc.HiveDriver";

  public static void main(String[] args) throws SQLException {

    try {
      Class.forName(driverName);
    } catch (ClassNotFoundException e) {
      e.printStackTrace();
      System.exit(1);
    }

    /*hiverserver 版本jdbc url格式*/
    //Connection con = DriverManager.getConnection("jdbc:hive://hostip:10000/default", "", "");

    /*hiverserver2 版本jdbc url格式*/
    Connection con = DriverManager.getConnection("jdbc:hive2://hostip:10000/default", "hive", "hive");
    Statement stmt = con.createStatement();
    //參數設置測試
    //boolean resHivePropertyTest = stmt
    //        .execute("SET tez.runtime.io.sort.mb = 128");
    
    boolean resHivePropertyTest = stmt
            .execute("set hive.execution.engine=tez");
    System.out.println(resHivePropertyTest);

    String tableName = "testHiveDriverTable";
    stmt.executeQuery("drop table " + tableName);
    ResultSet res = stmt.executeQuery("create table " + tableName + " (key int, value string)");

    //show tables
    String sql = "show tables '" + tableName + "'";
    System.out.println("Running: " + sql);
    res = stmt.executeQuery(sql);
    if (res.next()) {
      System.out.println(res.getString(1));
    }

    //describe table
    sql = "describe " + tableName;
    System.out.println("Running: " + sql);
    res = stmt.executeQuery(sql);
    while (res.next()) {
      System.out.println(res.getString(1) + "\t" + res.getString(2));
    } 

    // load data into table
    // NOTE: filepath has to be local to the hive server
    // NOTE: /tmp/a.txt is a ctrl-A separated file with two fields per line
    String filepath = "/tmp/a.txt";
    sql = "load data local inpath '" + filepath + "' into table " + tableName;
    System.out.println("Running: " + sql);
    res = stmt.executeQuery(sql); 

    // select * query
    sql = "select * from " + tableName;
    System.out.println("Running: " + sql);
    res = stmt.executeQuery(sql);
    while (res.next()) {
      System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));
    }
    
    // regular hive query
    sql = "select count(1) from " + tableName;
    System.out.println("Running: " + sql);
    res = stmt.executeQuery(sql);
    while (res.next()) {
      System.out.println(res.getString(1));
    }

  }

}

     可以將如下jar包放在eclipse buildpath,可以在啟動時放在classpath路徑。

    image

其中jdbcdriver可用hive-jdbc.jar,這樣的話,其他的jar也必須包含,或者用jdbc-standalone jar包,用此jar包其他jar包就可以不用包含。其中hadoop-common包一定要包含。

     執行後等待結果正確運行。若出現異常,則根據提示進行解決。提示不明確的幾個異常的解決方案如下:

1. 假如classpath或者buildpath中不包含hadoop-common-0.23.9.jar,出現如下錯誤

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration
    at org.apache.hive.jdbc.HiveConnection.createBinaryTransport(HiveConnection.java:393)
    at org.apache.hive.jdbc.HiveConnection.openTransport(HiveConnection.java:187)
    at org.apache.hive.jdbc.HiveConnection.<init>(HiveConnection.java:163)
    at org.apache.hive.jdbc.HiveDriver.connect(HiveDriver.java:105)
    at java.sql.DriverManager.getConnection(DriverManager.java:664)
    at java.sql.DriverManager.getConnection(DriverManager.java:247)
    at HiveJdbcClient.main(HiveJdbcClient.java:28)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.conf.Configuration
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 7 more

2. HIVE JDBC連接伺服器卡死:

     假如使用hiveserver    版本JDBCdriver 連接hiverserver2,將可能出現此問題,具體在JDBCDriver連接上之後根據協議要求請求hiveserver2返回數據時,hiveserver2不返回任何數據,因此JDBC driver將卡死不返回。

3. TezTask出錯,返回錯誤號1.

Exception in thread "main" java.sql.SQLException: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask
    at org.apache.hive.jdbc.HiveStatement.execute(HiveStatement.java:296)
    at org.apache.hive.jdbc.HiveStatement.executeQuery(HiveStatement.java:392)
    at HiveJdbcClient.main(HiveJdbcClient.java:40)

錯誤號1代表用戶認證失敗,在連接時必須指定用戶名密碼,有可能通過伺服器設置可以不需要用戶認證就可以執行,hdp預設安裝配置用戶名密碼是hive,hive

3. TezTask出錯,返回錯誤號2.

TaskAttempt 3 failed, info=[Error: Failure while running task:java.lang.IllegalArgumentException: tez.runtime.io.sort.mb 256 should be larger than 0 and should be less than the available task memory (MB):133
    at com.google.common.base.Preconditions.checkArgument(Preconditions.java:88)
    at org.apache.tez.runtime.library.common.sort.impl.ExternalSorter.getInitialMemoryRequirement(ExternalSorter.java:291)
    at org.apache.tez.runtime.library.output.OrderedPartitionedKVOutput.initialize(OrderedPartitionedKVOutput.java:95)
    at org.apache.tez.runtime.LogicalIOProcessorRuntimeTask$InitializeOutputCallable.call(LogicalIOProcessorRuntimeTask.java:430)
    at org.apache.tez.runtime.LogicalIOProcessorRuntimeTask$InitializeOutputCallable.call(LogicalIOProcessorRuntimeTask.java:409)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
]], Vertex failed as one or more tasks failed. failedTasks:1, Vertex vertex_1441168955561_1508_2_00 [Map 1] killed/failed due to:null]
Vertex killed, vertexName=Reducer 2, vertexId=vertex_1441168955561_1508_2_01, diagnostics=[Vertex received Kill while in RUNNING state., Vertex killed as other vertex failed. failedTasks:0, Vertex vertex_1441168955561_1508_2_01 [Reducer 2] killed/failed due to:null]
DAG failed due to vertex failure. failedVertices:1 killedVertices:1
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.tez.TezTask

 

code 2,代表錯誤是參數錯誤,一般是指對應的值不合適,以上堆棧指示tez.runtime.io.sort.mb參數256比可用記憶體大,因此修改配置文件或者執行查詢之前先設置其大小即可。

通過以上設置以及參數修正之後,應用程式就能正確的使用jdbc連接hive資料庫。

另可以用squirrel-sql GUI客戶端管理hivedb,驅動設置方式與代碼中對應jar包、驅動類、url等使用同樣方式設置,測試成功建立好alias就可以開始連接hive,可以比較方便的管理和操作hive資料庫。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Having--對分組信息進行過濾,因為分組之後的信息和原來的表信息沒有關係了,Having可以用的之後,出現在Group子句中的列,還有聚合函數 SELECT s_Age ,COUNT(s_ID)FROM dbo.Student GROUP BY s_Age--正確的 SELECT s_Age ,...
  • Group By:對數據進行分組,分組之後的數據就是“分組信息”,和原來表的信息,就沒有聯繫了,分組之後,可以取到分組數據,就是根據什麼欄位分組,就能取到欄位的名字了。還能使用聚合函數。Group By和Order By都是要放在Where語句之後,Group By和Order By都是對篩選後的數...
  • Innotop是一款十分強大的MySQL監控工具,用perl所寫,通過文本模式展示MysQL伺服器和Innodb的運行狀況。安裝innotop下載地址:https://github.com/innotop/innotopGithub上提供兩種版本,一種是開發版(innotop-master),一種是...
  • 1.資料庫設計的步驟第一步:需求分析(收集信息)第二步:繪製 E-R 圖 (標示實體 ,找到實體的屬性第三步:將 E-R 圖轉換成資料庫模型圖第四步:將資料庫模型圖轉換成數據表2.如何繪製 E-R 圖矩形:實體橢圓形:屬性菱形:關係3.如何繪製資料庫模型圖PowerDesigner :選擇 Phys...
  • 外鍵的使用大家都不陌生,是我們用於保持數據引用完整性的作用~辣今天我就分享一下外鍵的一些限制。1、外鍵引用的是需要其它表的主鍵,或者候選鍵。(這個比較好理解,就不寫代碼了╮(╯_╰)╭)2、外鍵創建之後並不會自動創建索引,這個是有開發人員自己考慮在外鍵上建相關索引是否能獲取到查詢效率上的提升3、預設...
  • 好吧,我確實不知道該怎麼起這個標題,整了一個“分佈”,感覺還有點高檔,其實沒啥技術含量,看完你就知道了。情況是這樣,剛剛接到一個臨時任務,需要讓幾個營業點的銷售數據【變】少一點,就是在ERP的相關報表中,查詢出來的數據要在指定區間,說白了就是那什麼~你懂的,某些同行應該對這種任務很熟悉了,而有些同行...
  • update aset a.StepCode=b.StepCode,a.StepName=b.StepName,a.allowtime=b.allowtime,a.ActionTypeID=b.ActionTypeID,a.YesStep=b.YesStep,a.NoStep=b.NoStep,a....
  • 01.簡述資料庫完整性及其作用?解析:數據的準確性,保證數據中數據的準確性。 02.基本操作語句(DML DDL DCL)有哪些?語法是?DML(data manipulation language):自動提交的資料庫操作語言它們是SELECT、UPDATE、INSERT、DELETE,就象它的名....
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...