從零自學Hadoop(25):Impala相關操作下

来源:http://www.cnblogs.com/mephisto/archive/2017/10/26/7733035.html
-Advertisement-
Play Games

上一篇,我們介紹Impala的相關操作。    下麵我們開始繼續進一步的瞭解Impala的相關操作。 ...


  閱讀目錄

本文版權歸mephisto和博客園共有,歡迎轉載,但須保留此段聲明,並給出原文鏈接,謝謝合作。

文章是哥(mephisto)寫的,SourceLink

 

     上一篇,我們介紹Impala的相關操作。

   下麵我們開始繼續進一步的瞭解Impala的相關操作。

導入數據

一:INSERT VALUES

  該方式不適合載入大量的數據到基於 HDFS (HDFS-based)的表,因為插入操作無法並行,並且每一個語句會產生單獨的數據文件,形成很多小文件。
  不要運行每次只插入單行數據的 很多條的 INSERT ... VALUES 語句的腳本,會產生很多小文件。將數據都放在VALUES中會好很多,就沒有那多的小文件。

insert into student values ('1','張三','','2017-10-23 10:10:20'), ('2','李四','','2017-10-23 10:10:20'), ('3','王五','','2017-10-23 10:10:20');
insert into student values ('4','張三1','','2017-10-23 10:10:20'), ('5','李四1','','2017-10-23 10:10:20'), ('6','王五1','','2017-10-23 10:10:20');

  使用insert into table 語法,每一組新插入的數據,都會追加到原來的數據後。 

 

 

  我們可以看到hdfs中有兩個文件。也就是說insert一次就生成一個文件,所以會產生很多小文件。

  使用insert overwrite table 語法,每一組新插入的數據,都會覆蓋表中原有的數據。

insert overwrite student values ('7','張三2','','2017-10-23 10:10:20'), ('8','李四2','','2017-10-23 10:10:20'), ('9','王五2','','2017-10-23 10:10:20');

二:LOAD DATA語句

  LOAD DATA 語句簡化了 Impala 內部表從 HDFS 位置移動一個或目錄下所有數據文件到該表對應的 Impala 數據目錄中的 ETL 過程。

  新建待導入文件數據 student.txt

  從本地上傳到hdfs

sudo -u impala hdfs dfs -put student.txt /tmp/student.txt

  查看

hadoop fs -ls /tmp/

  導入

load data inpath '/tmp/student.txt' into table student ;

  可以看到文件的內容導入到了表中,
  並且對應的hdfs目錄的文件已經不再了。

  重新將文件上傳到對應目錄
  然後重新導入
  這次我們使用overwrite

load data inpath '/tmp/student.txt' overwrite into table student ;

  可以看到數據已經載入進去,並且原有的數據都被替換掉了。

三:分區表的load data

  新增分區

alter table student_p  add partition (year='2017',month='01',day='01');
alter table student_p  add partition (year='2017',month='01',day='02');

load data inpath '/tmp/student.txt' overwrite into table student_p  partition(year='2017',month='01',day='01') ;
load data inpath '/tmp/student.txt' overwrite into table student_p  partition(year='2017',month='01',day='02') ;

  這之間還需要再將文件上傳到hdfs

select * from student_p;

  可見指定了分區後,不會影響到其他分區的數據。

 

查詢

  查詢這裡就只舉幾個可能需要註意到的,其他的語法可以詳見官網。

一:limit

  設置select查詢中結果集的最大行數

select * from student limit 1;

二:offset

  offset可以和limit一起使用,可以用於模擬“分頁”結果集,實際中最好不要這樣用,儘量的將結果集緩存到應用端,在應用端分頁。

select * from student order by id  limit 1 offset 0;
select * from student order by id  limit 1 offset 1;

 

  

--------------------------------------------------------------------

  到此,本章節的內容講述完畢。

系列索引

  【源】從零自學Hadoop系列索引

 

 

 

 

本文版權歸mephisto和博客園共有,歡迎轉載,但須保留此段聲明,並給出原文鏈接,謝謝合作。

文章是哥(mephisto)寫的,SourceLink

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • App啟動卡慢會影響一個App的卸載率和使用率。啟動速度快會給人一種輕快的感覺,減少用戶等待時間。如果一個App從點擊桌面圖標到看到主界面花了10秒,請問你能接受麽?忍耐不好的估計直接就卸載了,或者沒等打開就直接Home鍵按出去,然後殺進程了。這樣一來App卸載率提升了,使用率下降了。所以對於有大量... ...
  • 1.KVO簡介 KVO是Objective-C對觀察者設計模式的一種實現,它提供一種機制,指定一個被觀察對象(如A類),當對象中的某個屬性發生變化的時候,對象就會接收到通知,並作出相應的處理。在MVC設計架構下的項目,KVO機制很適合實現mode模型和view視圖之間的通訊。例如:代碼中,在模型類A ...
  • 1.什麼是自動引用計數? 顧明思義,自動引用計數(ARC,Automatic Reference Counting)是指記憶體管理中對引用採取自動計數的技術。 在OC中採用ARC機制,讓編譯器來進行記憶體管理。在新一代apple LLVM編譯器中設置ARC為有效狀態,就無需再次鍵入retain或者rel ...
  • 一、HTML是什麼? HTML(hypertext mark-uplanguage)是 超文本標記語言, 主要的用處是做網頁, 可以在網頁上顯示 文字、圖像、視頻、聲音… HTML只能做靜態網頁 二、HTML發展歷史 html之父-Tim Berners-Lee蒂姆·伯納斯-李(Tim Berner ...
  • 電話撥號示例 代碼 //創建對象 //指定操作 //指定Uri //啟動 備註 需要許可權android.permission.CALL_PHONE 添加方式AndroidManifest.xml內manifest之後application之前 ...
  • 最近用ionic3+angular4做項目。我遇到了個問題,我返回原來頁面時一般都會調用this.navCtrl.pop()方法,但這個方法不能攜帶參數。怎麼辦? 可以寫個回調方法。 我在a頁面定義個回調方法。 在跳轉到的頁面,接受這個回調方法。 這樣,你就可以返回頁面時也把參數傳回去。 ...
  • ViewPager是v4支持庫中的一個控制項,相信幾乎所有接觸Android開發的人都對它不陌生。之所以還要在這裡翻舊賬,是因為我在最近的項目中有多個需求用到了它,覺得自己對它的認識不夠深刻。我計劃從最簡單的使用場景出發,記錄我到目前為止所對ViewPager的使用情況以及有關它的一些知識點。 這個系 ...
  • --死鎖/************************************************************************************************************************************************* ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...