Spark--Shuffle_ZenDei技術網路在線

Spark--Shuffle

-Advertisement-

理解reduceByKey操作，有助於理解Shuffle reduceByKey reduceByKey操作將map中的有相同key的value值進行合併，但是map中的數據鍵值對，並不一定分佈在相同的partition中，甚至相同的機器中。所以需要將數據取到相同的主機進行計算-同地協作。單一t ...

理解reduceByKey操作，有助於理解Shuffle

reduceByKey

reduceByKey操作將map中的有相同key的value值進行合併，但是map中的數據鍵值對，並不一定分佈在相同的partition中，甚至相同的機器中。

所以需要將數據取到相同的主機進行計算-同地協作。

單一task操作在單一partition上，為了組織所有數據進行單一的redueceByKey reduce 任務執行，Spark需要完成all-to-all(多對多)操作，所以必須在所有partitions中尋找所有values為了所有keys。

然後將每一個key對應的值從不同的partitions中放到一起進行最終的計算。這就是Shuffle.

Shuffle

1、數據完整性

2、網路IO消耗

3、磁碟IO消耗

回顧MapReduce的shuffle

MapReduce的shuffle操作

Shuffle階段在map函數的輸出到reduce函數的輸入，都是shuffle階段，

Split與block的對應關係可能是多對一，預設是一對一。每個map任務會處理一個split，如果block大和split相同，有多少個block就有多少個map任務，hadoop的2.*版本中一個block預設128M。

Map階段的shuffle操作：

得到map的輸出，然後進行分區，預設的分區規則:key值計算hash然後對應reduce個數取模；分區個數與reduce個數一致

map分區後的結果會放入到記憶體的環形緩衝區，它的預設大小是100M，配置信息是mapreduce.task.io.sort.mb，當緩衝區的大小使用超過一定的閥值(mapred-site.xml:mapreduce.map.sort.spill.percent,預設80%)，一個後臺的線程就會啟動把緩衝區中的數據溢寫(spill)到本地磁碟中(mapred-site.xml:mapreduce.cluster.local.dir)，與此同時Mapper繼續向環形緩衝區中寫入數據。

環形緩衝區將數據溢寫到磁碟，在溢寫過程中對數據進行sort和Combiner，排序預設是針對key進行排序，combiner如果指定是優化的一種，類似將reduce的操作在map端進行，避免多餘數據的傳輸，比如在分區中有3個("Hadoop",1)，可將數據進行合併("Hadoop",3)。溢寫到磁碟小文件大小為80M。

然後將多個小文件合併成一個大文件，在這個過程中，還是會進行sort和combiner，因為即使小文件的內容是已經排序的，合併以後數據也還是需要排序的。不然數據還是無序的。

Reduce階段的shuffle操作：

Reduce從Task Tracker中取數據，使用http協議取數據，copy過來的數據放入到記憶體緩存區中，這裡的記憶體緩衝區的大小為JVM的heap大小。

然後對數據進行merge，這裡的merge也會進行sort和combiner，如果設置了combiner。merge也會進行預設的分組，將key進行分組。

Spark Shuffle

HashBaseShuffle

缺點：小文件過多，數量為task*reduce的數量

數據到記憶體buffer是進行partition操作，對key求hash然後根據reduce數量取模。buffer的大小不大32k，不是很大，buffer的數據會隨時寫到block file，這個過程沒有sort。

reduce端通過netty傳輸來取數據，然後將數據放到記憶體。通過hashmap存儲。

優化：使用spark.shuffle.consolidateFiles機制，修改值為true，預設為false，沒有啟用。

文件數量為：reduce*core

在一個core裡面並行運行的task其中生成的文件數為reduce的個數。一個core裡面並行運行的task，將數據都追加到一起。

SortBaseShuffle

現在預設的shuflle為SortBaseShuffle

自帶consolidateFiles機制

自帶sort

不用sort排序可以通過配置實現

1、spark.shuffle.sort.bypassMergeThreshold 預設值為200 ，如果shuffle read task的數量小於這個閥值200，則不會進行排序。

2、或者使用hashbasedshuffle + consolidateFiles 機制

修改shuffle方法：

spark.shuffle.manager 預設值：sort

有三個可選項：hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的預設選項，但是Spark 1.2以及之後的版本預設都是SortShuffleManager了。tungsten-sort與sort類似，但是使用了tungsten計劃中的堆外記憶體管理機制，記憶體使用效率更高。tungsten-sort慎用，存在bug.

參考：http://langyu.iteye.com/blog/992916

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

欄位值包含一批連續的字元串

1 begin 2 3 declare @i int ; 4 5 set @i=77541214; 6 7 update dbo.test set code='AMHD'+CONVERT(varchar,@i),@i=@i+1; 8 9 end ...
Hadoop基礎知識

《原創，僅供學習交流》在關聯規則的研究中，有很多串列的演算法，經典的是Apriori演算法和FP_growth演算法。也有很多並行演算法，如CD( count distribution ) 、DD ( data distribution ) 、CaD( candidate distribution)、F ...
Spring+Mybatis基於註解整合Redis

基於這段時間折騰redis遇到了各種問題，想著整理一下。本文主要介紹基於Spring+Mybatis以註解的形式整合Redis。廢話少說，進入正題。首先準備Redis，我下的是Windows版，下載後直接啟動redis-server就行了，見下圖：一，先上jar包二，創建實體類三，dao介面 ...
捲積神經網路對圖片分類-中

接上篇：捲積神經網路對圖片分類-上 5 池層（Pooling Layers）池層通常用在捲積層之後，池層的作用就是簡化捲積層里輸出的信息, 減少數據維度，降低計算開銷，控制過擬合。如之前所說，一張28X28的輸入圖片，經過5X5的過濾器後會得到一個24X24的特征圖像，繼續簡化這個24X24特征 ...
Design7：數據刪除設計

在設計一個新系統的Table Schema的時候，不僅需要滿足業務邏輯的複雜需求，而且需要考慮如何設計schema能夠更快的增加數據和刪除數據。模擬一個場景： ID是自增的ID欄位（Identity），用以唯一標識一個Product，在業務邏輯上要求以Name欄位是唯一，通過Name能夠確定一個P ...
一個500強公司的數據化運營管理實踐

企業的信息化管理是一條漫長而崎嶇的道理，當然這裡也不乏創新的火花。關於信息化建設隨企業所處環境、行業的不同而不同。那作為一個成熟的企業，在如今這個大數據浪潮下，對於未來的信息化有何建設性的想法呢？這裡分享某醫葯集團的數據化管理實踐。 ...
ORACLE調整SGA_TARGET值耗費時間長案例

在一資料庫版本為（標準版）Oracle Database 10g Release 10.2.0.4.0 - 64bit Production 的伺服器上調整 sga_target時，遇到命令執行了非常久都沒有執行完成的異常情況，覺得非常詫異、不解，因為一般調整sga_targt命令非常快速，檢查了告... ...
FP並行演算法的幾個相關方向

1 集群系統中的 FP-tree 並行演算法（many for one一個任務還是雲計算one for many多個任務？）電腦集群系統利用網路把一組具有高性能的工作站或者 PC 機按一定的結構連接起來，從而形成了高效的並行的計算處理系統。各節點之間使用消息傳遞實現通信，集群系統通常用於改 ...