Spark RDD aggregateByKey

来源:http://www.cnblogs.com/one--way/archive/2016/10/28/6006296.html
-Advertisement-
Play Games

aggregateByKey 這個RDD有點繁瑣,整理一下使用示例,供參考 直接上代碼 輸出結果說明: 參考代碼及下麵的說明進行理解 官網的說明 源碼中函數的說明 ...


aggregateByKey 這個RDD有點繁瑣,整理一下使用示例,供參考

 

直接上代碼

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by Edward on 2016/10/27.
  */
object AggregateByKey {
  def main(args: Array[String]) {
    val sparkConf: SparkConf = new SparkConf().setAppName("AggregateByKey")
      .setMaster("local")
    val sc: SparkContext = new SparkContext(sparkConf)

    val data = List((1, 3), (1, 2), (1, 4), (2, 3))
    var rdd = sc.parallelize(data,2)//數據拆分成兩個分區

    //合併在不同partition中的值,a,b的數據類型為zeroValue的數據類型
    def comb(a: String, b: String): String = {
      println("comb: " + a + "\t " + b)
      a + b
    }
    //合併在同一個partition中的值, a的數據類型為zeroValue的數據類型,b的數據類型為原value的數據類型
    def seq(a: String, b: Int): String = {
      println("seq: " + a + "\t " + b)
      a + b
    }

    rdd.foreach(println)
    
//
zeroValue 中立值,定義返回value的類型,並參與運算 //seqOp 用來在一個partition中合併值的 //comb 用來在不同partition中合併值的 val aggregateByKeyRDD: RDD[(Int, String)] = rdd.aggregateByKey("100")(seq,comb) //列印輸出 aggregateByKeyRDD.foreach(println) sc.stop() } }

 

輸出結果說明:

 /*
將數據拆分成兩個分區

//分區一數據
(1,3)
(1,2)
//分區二數據
(1,4)
(2,3)

//分區一相同key的數據進行合併
seq: 100     3   //(1,3)開始和中立值進行合併  合併結果為 1003
seq: 1003     2   //(1,2)再次合併 結果為 10032

//分區二相同key的數據進行合併
seq: 100     4  //(1,4) 開始和中立值進行合併 1004
seq: 100     3  //(2,3) 開始和中立值進行合併 1003

將兩個分區的結果進行合併
//key為2的,只在一個分區存在,不需要合併 (2,1003)
(2,1003)

//key為1的, 在兩個分區存在,並且數據類型一致,合併
comb: 10032     1004
(1,100321004)

* */

 

參考代碼及下麵的說明進行理解 

 

官網的說明

aggregateByKey(zeroValue)(seqOpcombOp, [numTasks]) When called on a dataset of (K, V) pairs, returns a dataset of (K, U) pairs where the values for each key are aggregated using the given combine functions and a neutral "zero" value. Allows an aggregated value type that is different than the input value type, while avoiding unnecessary allocations. Like in groupByKey, the number of reduce tasks is configurable through an optional second argument.

源碼中函數的說明 

/**
* Aggregate the values of each key, using given combine functions and a neutral "zero value".
* This function can return a different result type, U, than the type of the values in this RDD,
* V. Thus, we need one operation for merging a V into a U and one operation for merging two U's,
* as in scala.TraversableOnce. The former operation is used for merging values within a
* partition, and the latter is used for merging values between partitions. To avoid memory
* allocation, both of these functions are allowed to modify and return their first argument
* instead of creating a new U.
*/

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1. 找到MySQL的配置文件,一般在MySQL的安裝目錄下,例如我的: C:\Program Files\MySQL\MySQL Server 5.7 ,打開下麵的一個配置文件: my-default.ini ,在最後面添加一行配置: show_compatibility_56 = 1 。 2. ... ...
  • zookeeper的安裝(圖文詳解。。。來點擊哦!) 一、伺服器的配置 三台伺服器: 192.168.83.133 sunshine 192.168.83.134 sunshineMin 192.168.83.135 sunshineMax 在每台伺服器的hosts文件中添加:(命令:vi /etc ...
  • MongoDB的訪問控制能夠有效保證資料庫的安全,訪問控制是指綁定Application監聽的IP地址,設置監聽埠,使用賬戶和密碼登錄 一,訪問控制的參數 1,綁定IP地址 mongod 參數:--bind_ip <ip address> 預設值是所有的IP地址都能訪問,該參數指定MongoDB對 ...
  • 本文出處:http://www.cnblogs.com/wy123/p/6008477.html 關於統計信息對數據行數做預估,之前寫過對非相關列(單獨或者單獨的索引列)進行預估時候的演算法,參考這裡。 今天來寫一下統計信息對於複合索引在預估時候的計算方法和潛在問題。 本文原形來自於是個實際業務問題, ...
  • 問題來源: 今天群里有人問:tableoid欄位在每行都有,而且一個表裡面的值是重覆的,這樣不合理...... 因此做了一些分析: 1)創建了一個表 2)查看該表的所有欄位 包括隱藏的: 可以發現有6個隱藏的欄位,其中cmax xmax cmin xmin都跟事物有關,在PG事物處理相關文章中可以經 ...
  • 1、首先,Redis官方是支持Linux系統的,我這裡不多說,需要的可以參考:http://www.oschina.net/question/12_18065/ 2、Windows 64位下載地址:https://github.com/MSOpenTech/redis/releases 3、下載後的 ...
  • 概述 compaction主要包括兩類:將記憶體中imutable 轉儲到磁碟上sst的過程稱之為flush或者minor compaction;磁碟上的sst文件從低層向高層轉儲的過程稱之為compaction或者是major compaction。對於myrocks來說,compaction過程都 ...
  • 我們在項目開發的時候都不可避免的會有非同步化的問題,比較好的解決方案就是使用消息隊列,可供選擇的隊列產品也有很多,比如輕量級的redis, 當然還有重量級的專業產品rabbitmq,rabbitmq好就好在是用erlang(二郎神)開發的,它那天生的OTP並行計算框架,輕而易舉的進程間通訊,我都恨 不 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...