[學習筆記] parallelize並行化集合是根據一個已經存在的Scala集合創建的RDD對象。集合的裡面的元素將會被拷貝進入新創建出的一個可被並行操作的分散式數據集。例如:val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5)) 根據系統環境來進行切分多個s ...
[學習筆記]
parallelize並行化集合是根據一個已經存在的Scala集合創建的RDD對象。集合的裡面的元素將會被拷貝進入新創建出的一個可被並行操作的分散式數據集。
例如:val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5)) 根據系統環境來進行切分多個slice,每一個slice啟動一個Task來進行處理。
val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5), 5) 指定了partition的數量為5,
makeRDD和parallelize的區別?makeRDD函數有兩種實現,第一種實現其實完全和parallelize一致。而第二種實現可以為數據提供位置信息,除此之外,和parallelize是一致的
*/
val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5), 3)
val rdd03_1 = rdd03.map { x => x + 1 }
println("map2 用法 is 馬克-to-win @ 馬克java社區:" + rdd03_1.collect().mkString(","))
val rdd04 = sc.parallelize(List(1, 4, 3, 7, 5), 3)
val rdd04_1 = rdd04.filter { x => x > 3 }
println("filter2 用法 馬克-to-win @ 馬克java社區:" + rdd04_1.collect().mkString(","))
val rdd05: RDD[Int] = sc.makeRDD(Array(1, 4, 3))
val rdd06: RDD[Int] = sc.makeRDD(Array(7, 5))
myunion(rdd05, rdd06)
/*reduce(function)
文章轉載自原文:https://blog.csdn.net/qq_44596980/article/details/93310016