Spark快速上手(2)Spark核心編程-RDD簡介

-Advertisement-

Spark計算框架為適應高併發和高吞吐的數據處理需求，封裝了三大數據結構，以處理不同應用： 1）RDD:彈性分散式數據集 2）累加器：分散式共用只寫變數 3）廣播變數：分散式共用只讀變數 ##RDD(1) ###什麼是RDD RDD(Resilient Distributed Dataset)彈性分 ...

Spark計算框架為適應高併發和高吞吐的數據處理需求，封裝了三大數據結構，以處理不同應用：
1）RDD:彈性分散式數據集
2）累加器：分散式共用只寫變數
3）廣播變數：分散式共用只讀變數

RDD(1)

什麼是RDD

RDD(Resilient Distributed Dataset)彈性分散式數據集，為Spark中最基本的數據處理模型。
它是一個抽象類，代表彈性、不可變、可分區且其中元素可並行計算的集合。
1）彈性：多方面（存儲、容錯、計算、分片）
2）分散式：數據存儲在集群不同節點上
3）數據集：RDD只封裝計算邏輯，不保存數據
4）數據抽象：RDD需要子類實現
5）不可變：RDD封裝的計算邏輯不可改變，只能產生根據原來的RDD產生新的RDD，併在其中封裝計算邏輯
6）可分區、並行計算

核心屬性

1）分區列表
RDD數據結構中存在分區列表，用於並行計算，是實現分散式計算的重要屬性
2）分區計算函數
Spark在計算時，是使用分區函數對每一個分區進行計算
3）RDD之間依賴關係
RDD是計算模型的封裝，如果需求包含多個計算模型的組合，就需要多個RDD建立依賴關係
4）分區器（option）
數據為KV類型（key-value），可以通過設定分區器自定義數據的分區
5）首選位置(option)
計算數據時，可根據計算節點狀態選擇節點位置進行計算

基礎編程

RDD創建

在Spark中從創建RDD的方式有四種：
1）集合中創建RDD，Spark主要提供兩個方法：parallelize、makeRDD
e.g.

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark")
 val sparkContext = new SparkContext(sparkConf)
 val rdd1 = sparkContext.parallelize(List(1,2,3,4))
 val rdd2 = sparkContext.makeRDD(list(1,2,3,4))
 rdd1.collect().foreach(println)
 rdd2.collect().foreach(println)
 sparkContext.stop()

makeRDD方法從底層實現看就是parallelize方法
2）從外部存儲（文件）創建RDD
由外部存儲系統的數據集創建RDD包括：本地的文件系統、所用Hadoop支持的數據集（譬如HDFS、HBase）
e.g.

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark")
 val sparkContext = new SparkContext(sparkConf)
 val fileRDD:RDD[String] = sparkContext.textFile("input")
 fileRDD.collect().foreach(println)
 sparkContext.stop()

3)從其他RDD創建
通過一個RDD運算完後，再產生新的RDD。
4）直接創建RDD(new)
使用new的方式直接構造RDD，一般由Spark框架自身使用

RDD並行度與分區

e.g.

  val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark")
  val sparkContext = new SparkContext(sparkConf)
  val dataRDD:RDD[Int] = sparkContext.makeRDD(List(1,2,3,4),4)
  val fileRDD:RDD[String] = sparkContext.textFile("input",2)
  fileRDD.collect(),foreach(println)
  sparkContext.stop()

預設情況下,Spark可以將一個作業切分多個任務後，發送給Executor節點並行計算，能夠並行計算的任務數量稱之為並行度。這個
數量可以再構建RDD時指定。不過需要註意的是，這裡並行執行的任務數量，不是指切分任務的數量

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

在VirtualBox上創建openEuler虛擬機（新手教程）

1 環境準備： VirtualBox下載地址：https://www.virtualbox.org/wiki/Downloads，根據自己的系統類型進行下載安裝即可。 openEuler ISO下載地址：https://www.openeuler.org/zh/download/，選擇自己想要的版本 ...
RAID技術圖解（mdadm）

一、概述 RAID （ Redundant Array of Independent Disks ）即獨立磁碟冗餘陣列，通常簡稱為磁碟陣列。簡單地說， RAID 是由多個獨立的高性能磁碟驅動器組成的磁碟子系統，從而提供比單個磁碟更高的存儲性能和數據冗餘高可靠性的存儲技術。RAID分為硬 RAID、全 ...
Dreamweaver 2021 for Mac(DW網站開發製作軟體)

Dreamweaver 2021 mac版是目前行業中最優秀的一款網站開發利器，新版本的dw 2021下載比以往任何版本都更專註、更高效和快速，具備全新代碼編輯器、更直觀的用戶界面和多種增強功能。強大的功能可以幫助編程人員更輕鬆、高效的設計網頁。 Dreamweaver 2021 for Mac(D ...
Jenkins之Maven的配置

鏡像下載、功能變數名稱解析、時間同步請點擊阿裡雲開源鏡像站 Maven集成在Jenkins上發佈Java項目時需要使用Maven來進行構建打包(Gradle項目則需要安裝配置Gradle) 1.1 環境準備這篇文章是在前一篇文章的基礎上 maven包下載地址 [root@192 java]# pwd ...
記憶體泄漏定位工具之 valgrind 使用

記錄如何通過 valgrind 的 memcheck 工具分析定位記憶體泄漏的問題 ...
Spark快速上手(3)Spark核心編程-RDD轉換運算元

#RDD(2) ##RDD轉換運算元 RDD根據數據處理方式的不同將運算元整體上分為Value類型、雙Value類型、Key-Value類型 ###value類型 ####map 函數簽名 def map[U:ClassTag](f:T=>U):RDD[U] 函數說明將處理的數據逐條進行映射轉換，這裡 ...
位元組跳動數據平臺技術揭秘：基於 ClickHouse 的複雜查詢實現與優化

更多技術交流、求職機會、試用福利，歡迎關註位元組跳動數據平臺微信公眾號，回覆【1】進入官方交流群 ClickHouse 作為目前業內主流的列式存儲資料庫(DBMS)之一，擁有著同類型 DBMS 難以企及的查詢速度。作為該領域中的後起之秀，ClickHouse 已憑藉其性能優勢引領了業內新一輪分析型數據 ...
TDSQL｜就業難？騰訊雲資料庫微認證來幫你

6月29日，騰訊雲資料庫聯合CSDN舉辦的“數啟揚帆，智聚人才”峰會順利舉行。本次會議重磅發佈了騰訊雲聯合CSDN推出的資料庫工程師能力認證——騰訊雲資料庫微認證，旨在助力資料庫人才體系建設，造福產業發展，打通在校和在職的能力銜接，強化人才全生命周期的培養方案和技能提升，優秀者還可獲得騰訊雲面試直通 ...