hive調優_ZenDei技術網路在線

hive調優

-Advertisement-

1、表和sql的優化 -》大表拆分成小表、分區表、外部表、臨時表都是屬於優化的一塊 -》分區表：檢索更快速 -》外部表：數據安全性 -》臨時表&拆分子表：簡化複雜的SQL以及需求 2、SQL可以從join和fliter兩方面深入 3、MR優化 -》map和reduce的個數 -》一個分片就是一個塊， ...

1、表和sql的優化
       -》大表拆分成小表、分區表、外部表、臨時表都是屬於優化的一塊
           -》分區表：檢索更快速
           -》外部表：數據安全性
           -》臨時表&拆分子表：簡化複雜的SQL以及需求

2、SQL可以從join和fliter兩方面深入

3、MR優化
           -》map和reduce的個數
               -》一個分片就是一個塊，一個塊對應一個maptask
               -》Hadoop源碼中有一個計算公式
           min(max_split_size,max(min_split_size,block_size))
           -》min_split_size預設值0（最小分片大小）
           -》max取的時候取的是block_size，block_size預設是128
           -》max_split_size預設值256（最大分片大小）
           -》這個公式決定了map的個數
           -》肯定不能直接去修改HDFS的block_size
           -》一般在實際的生產環境中HDFS一旦format格式化之後，block_size大小不會去修改的
           -》通過修改max_split_size和min_split_size來影響map的個數
           -》並行執行
               -》針對有些互相沒有依賴關係的獨立的job，可以選擇併發的執行job
               hive.exec.parallel
               -》是否開啟並行執行的功能
               hive.exec.parallel.thread.number
               -》設置並行執行的線程個數
               -》一般在工作中會選擇去開啟該功能
               -》根據實際的集群的狀況和伺服器的性能合理的設置線程數目
           -》JVM重用
               -》mapreduce.job.jvm.numtasks通過合理的測試，設置一個合理的數目
           -》推測執行
               -》當某個任務出現遲遲不結束的情況，那麼會考慮開啟推測執行，開啟一個一模一樣的任務去完成
               -》兩個任務誰先完成，就會關閉另一個
               -》分為map端的推測和reduce端的推測
               -》不好的地方：過多的消耗資源
               mapreduce.map.speculative
               mapreduce.reduce.speculative
               -》額外消耗節點資源
               -》可能會出現重覆寫入的情況，產生異常

4、hive本地模式
               -》業務場景：處理小數據集的時候，速度會更快一些
               -》hive.exec.mode.local.auto
               -》本地模式的限制：數據的輸入大小不能超過128MB
               -》本地模式的限制：map數不能超過4個
               -》本地模式的限制：reduce的個數不能超過1個

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

linux ----- Vim進入和退出命令

Vim進入和退出命令本來不想寫任何關於vim的文章的，無奈我今天又忘記怎麼退出vim了，常用命令是ESC，然後:wq（保存並退出），:q!(不保存並強制退出），i進入vim模式。另外還有其它的，我可能都不會用到。。。按ESC鍵跳到命令模式，然後： :w 保存文件但不退出vi :w file 將 ...
pl/sql developer開發工具的beautifier美化插件

對於存儲過程中需要編寫大量的sql語句，這必然需要美化語句，使得程式可讀性更高。 pl/sql developer開發工具自帶美化工具，不過美化的時候容易使得語句全部改變成大寫格式，這樣就需要一個插件包或者說一個使得程式只格式不改變原來大小寫的文件包。 1、自帶美化，（自帶的不夠完美，不建議推薦使用 ...
MySQL中間件之ProxySQL(15)：ProxySQL代理MySQL組複製

返回 "ProxySQL系列文章：http://www.cnblogs.com/f ck need u/p/7586194.html" 1.ProxySQL+組複製前言在以前的ProxySQL版本中，要支持MySQL組複製(MGR,MySQL Group Replication)需要 ...
Oracle資料庫從入門到精通-分組統計查詢

視頻課程：李興華 Oracle從入門到精通視頻課程學習者：陽光羅諾視頻來源：51CTO學院整體內容：統計函數在之前我們就學習過一個COUNT()函數，這個函數的主要作用是統計一張表之中的數據量的個數。和它功能與之類似的常用函數有五個：統計個數COUNT()：根據表中的實際數據量返回結果。 ...
Hadoop原理之——HDFS原理

Hadoop 3個核心組件：分散式文件系統：Hdfs——實現將文件分散式存儲在很多的伺服器上（hdfs是一個基於Linux本地文件系統上的文件系統）分散式運算編程框架：Mapreduce——實現在很多機器上分散式並行運算分散式資源調度平臺：Yarn——幫用戶調度大量的mapreduce程式，並 ...
Lucene-分詞器簡介及IK分詞器的使用

在對文檔(Document)中的內容進行索引前, 需要對域(Field)中的內容使用分析對象(分詞器)進行分詞. IK分詞器是一款功能完備、擴展性較高的中文分詞器, 企業開發中使用較多. ...
Oracle 存儲過程 PROCEDURE

存儲過程一組用於完成特定資料庫功能的SQL語句集，該SQL語句集經過編譯後存儲在資料庫系統中。在使用時候，用戶通過指定已經定義的存儲過程名字並給出相應的存儲過程參數來調用並執行它，從而完成一個或一系列的資料庫操作。包含三部分：過程聲明，執行過程部分，存儲過程異常（可選）。示例項目運用 1.獲 ...
mysql統計一年12月的數據

效果圖: 參考地址: https://blog.csdn.net/w3chhhhhh/article/details/54097890 ...