Spark快速上手(2)Spark核心編程-RDD簡介

来源:https://www.cnblogs.com/unknownshangke/archive/2022/07/01/16427687.html
-Advertisement-
Play Games

Spark計算框架為適應高併發和高吞吐的數據處理需求,封裝了三大數據結構,以處理不同應用: 1)RDD:彈性分散式數據集 2)累加器:分散式共用只寫變數 3)廣播變數:分散式共用只讀變數 ##RDD(1) ###什麼是RDD RDD(Resilient Distributed Dataset)彈性分 ...


Spark計算框架為適應高併發和高吞吐的數據處理需求,封裝了三大數據結構,以處理不同應用:
1)RDD:彈性分散式數據集
2)累加器:分散式共用只寫變數
3)廣播變數:分散式共用只讀變數

RDD(1)

什麼是RDD

RDD(Resilient Distributed Dataset)彈性分散式數據集,為Spark中最基本的數據處理模型。
它是一個抽象類,代表彈性、不可變、可分區且其中元素可並行計算的集合。
1)彈性:多方面(存儲、容錯、計算、分片)
2)分散式:數據存儲在集群不同節點上
3)數據集:RDD只封裝計算邏輯,不保存數據
4)數據抽象:RDD需要子類實現
5)不可變:RDD封裝的計算邏輯不可改變,只能產生根據原來的RDD產生新的RDD,併在其中封裝計算邏輯
6)可分區、並行計算

核心屬性

1)分區列表
RDD數據結構中存在分區列表,用於並行計算,是實現分散式計算的重要屬性
2)分區計算函數
Spark在計算時,是使用分區函數對每一個分區進行計算
3)RDD之間依賴關係
RDD是計算模型的封裝,如果需求包含多個計算模型的組合,就需要多個RDD建立依賴關係
4)分區器(option)
數據為KV類型(key-value),可以通過設定分區器自定義數據的分區
5)首選位置(option)
計算數據時,可根據計算節點狀態選擇節點位置進行計算

基礎編程

RDD創建

在Spark中從創建RDD的方式有四種:
1)集合中創建RDD,Spark主要提供兩個方法:parallelize、makeRDD
e.g.

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark")
 val sparkContext = new SparkContext(sparkConf)
 val rdd1 = sparkContext.parallelize(List(1,2,3,4))
 val rdd2 = sparkContext.makeRDD(list(1,2,3,4))
 rdd1.collect().foreach(println)
 rdd2.collect().foreach(println)
 sparkContext.stop()

makeRDD方法從底層實現看就是parallelize方法
2)從外部存儲(文件)創建RDD
由外部存儲系統的數據集創建RDD包括:本地的文件系統、所用Hadoop支持的數據集(譬如HDFS、HBase)
e.g.

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark")
 val sparkContext = new SparkContext(sparkConf)
 val fileRDD:RDD[String] = sparkContext.textFile("input")
 fileRDD.collect().foreach(println)
 sparkContext.stop()

3)從其他RDD創建
通過一個RDD運算完後,再產生新的RDD。
4)直接創建RDD(new)
使用new的方式直接構造RDD,一般由Spark框架自身使用

RDD並行度與分區

e.g.

  val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark")
  val sparkContext = new SparkContext(sparkConf)
  val dataRDD:RDD[Int] = sparkContext.makeRDD(List(1,2,3,4),4)
  val fileRDD:RDD[String] = sparkContext.textFile("input",2)
  fileRDD.collect(),foreach(println)
  sparkContext.stop()

預設情況下,Spark可以將一個作業切分多個任務後,發送給Executor節點並行計算,能夠並行計算的任務數量稱之為並行度。這個
數量可以再構建RDD時指定。不過需要註意的是,這裡並行執行的任務數量,不是指切分任務的數量


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 環境準備: VirtualBox下載地址:https://www.virtualbox.org/wiki/Downloads,根據自己的系統類型進行下載安裝即可。 openEuler ISO下載地址:https://www.openeuler.org/zh/download/,選擇自己想要的版本 ...
  • 一、概述 RAID ( Redundant Array of Independent Disks )即獨立磁碟冗餘陣列,通常簡稱為磁碟陣列。簡單地說, RAID 是由多個獨立的高性能磁碟驅動器組成的磁碟子系統,從而提供比單個磁碟更高的存儲性能和數據冗餘高可靠性的存儲技術。RAID分為硬 RAID、全 ...
  • Dreamweaver 2021 mac版是目前行業中最優秀的一款網站開發利器,新版本的dw 2021下載比以往任何版本都更專註、更高效和快速,具備全新代碼編輯器、更直觀的用戶界面和多種增強功能。強大的功能可以幫助編程人員更輕鬆、高效的設計網頁。 Dreamweaver 2021 for Mac(D ...
  • 鏡像下載、功能變數名稱解析、時間同步請點擊 阿裡雲開源鏡像站 Maven集成 在Jenkins上發佈Java項目時需要使用Maven來進行構建打包(Gradle項目則需要安裝配置Gradle) 1.1 環境準備 這篇文章是在前一篇文章的基礎上 maven包下載地址 [root@192 java]# pwd ...
  • 記錄如何通過 valgrind 的 memcheck 工具分析定位記憶體泄漏的問題 ...
  • #RDD(2) ##RDD轉換運算元 RDD根據數據處理方式的不同將運算元整體上分為Value類型、雙Value類型、Key-Value類型 ###value類型 ####map 函數簽名 def map[U:ClassTag](f:T=>U):RDD[U] 函數說明 將處理的數據逐條進行映射轉換,這裡 ...
  • 更多技術交流、求職機會、試用福利,歡迎關註位元組跳動數據平臺微信公眾號,回覆【1】進入官方交流群 ClickHouse 作為目前業內主流的列式存儲資料庫(DBMS)之一,擁有著同類型 DBMS 難以企及的查詢速度。作為該領域中的後起之秀,ClickHouse 已憑藉其性能優勢引領了業內新一輪分析型數據 ...
  • 6月29日,騰訊雲資料庫聯合CSDN舉辦的“數啟揚帆,智聚人才”峰會順利舉行。本次會議重磅發佈了騰訊雲聯合CSDN推出的資料庫工程師能力認證——騰訊雲資料庫微認證,旨在助力資料庫人才體系建設,造福產業發展,打通在校和在職的能力銜接,強化人才全生命周期的培養方案和技能提升,優秀者還可獲得騰訊雲面試直通 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...