Spark之編程模型RDD_ZenDei技術網路在線

Spark之編程模型RDD

-Advertisement-

前言：Spark編程模型兩個主要抽象，一個是彈性分散式數據集RDD，它是一種特殊集合，支持多種數據源，可支持並行計算，可緩存；另一個是兩種共用變數，支持並行計算的廣播變數和累加器。 1.RDD介紹 Spark大數據處理平臺建立在RDD之上，RDD是Spark的核心概念，最主要的抽象之一。RDD和Sp ...

前言：Spark編程模型兩個主要抽象，一個是彈性分散式數據集RDD，它是一種特殊集合，支持多種數據源，可支持並行計算，可緩存；另一個是兩種共用變數，支持並行計算的廣播變數和累加器。

1.RDD介紹

Spark大數據處理平臺建立在RDD之上，RDD是Spark的核心概念，最主要的抽象之一。RDD和Spark之間的關係是，RDD是一種基於記憶體的具有容錯性的集群抽象方法，Spark是這個抽象方法的實現。

RDD（Resilient Distributed Dataset）叫做彈性分散式數據集，是Spark中最基本的數據抽象，它代表一個不可變、可分區、裡面的元素可並行計算的集合。RDD具有數據流模型的特點：自動容錯、位置感知性調度和可伸縮性。RDD允許用戶在執行多個查詢時顯式地將工作集緩存在記憶體中，後續的查詢能夠重用工作集，這極大地提升了查詢速度。

1.1 RDD的特征

（1）分區（Partition）：一個數據分片列表。能夠將數據切分，切分好的數據能夠進行並行計算，是數據集的原子組成部分。用戶可以在創建RDD時指定RDD的分片個數，如果沒有指定，那麼就會採用預設值。預設值就是程式所分配到的CPU Core的數目。

（2）函數（Compute）：一個計算RDD每個分片的函數。RDD的計算是以分片為單位的，每個RDD都會實現compute函數以達到這個目的。compute函數會對迭代器進行複合，不需要保存每次計算的結果。

（3）依賴（Dependency）：RDD的每次轉換都會生成一個新的RDD，所以RDD之間就會形成類似於流水線一樣的前後依賴關係。在部分分區數據丟失時，Spark可以通過這個依賴關係重新計算丟失的分區數據，而不是對RDD的所有分區進行重新計算。

（4）優先位置（可選）：一個列表，存儲存取每個Partition的優先位置（preferred location）。對於一個HDFS文件來說，這個列表保存的就是每個Partition所在的塊的位置。按照“移動數據不如移動計算”的理念，Spark在進行任務調度的時候，會儘可能地將計算任務分配到其所要處理數據塊的存儲位置。

（5）分區策略（可選）：一個Partitioner，即RDD的分片函數，描述分區的模式和數據存放的位置。當前Spark中實現了兩種類型的分片函數，一個是基於哈希的HashPartitioner，另外一個是基於範圍的RangePartitioner。只有對於於key-value的RDD，才會有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函數不但決定了RDD本身的分片數量，也決定了parent RDD Shuffle輸出時的分片數量。

常見的RDD有很多種，每個Transformation操作都會產生一種RDD，一下是各種RDD特征比較。

常見RDD特征

1.2 RDD依賴

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

IO多路復用（二） -- select、poll、epoll實現TCP反射程式

接著上文 "IO多路復用（一） Select、Poll、Epoll" ，接下來將演示一個TCP回射程式，源代碼來自於該博文https://www.cnblogs.com/Anker/p/3258674.html 博主的幾篇相關的文章，在這裡將其進行了整合，突出select、poll和epoll不同方 ...
Linux下進程的創建過程分析(_do_fork do_fork詳解)--Linux進程的管理與調度（八）

Unix標準的複製進程的系統調用時fork（即分叉），但是Linux，BSD等操作系統並不止實現這一個，確切的說linux實現了三個，fork,vfork,clone（確切說vfork創造出來的是輕量級進程，也叫線程，是共用資源的進程）系統調用 | 描述 | fork | fork創造的子進程是父 ...
phpmyadmin 下載、安裝、配置

phpmyadmin 下載、安裝、配置 2017年05月05日 15:52:39 wodecc_u 閱讀數：14363 標簽： phpmyadmin 更多個人分類：環境配置 phpmyadmin 下載、安裝、配置 phpmyadmin 下載、安裝、配置 2017年05月05日 15:52:39 ...
MySQL優化之Explain命令解讀

explain為mysql提供語句的執行計劃信息。可以應用在select、delete、insert、update和place語句上。explain的執行計劃，只是作為語句執行過程的一個參考，實際執行的過程不一定和計劃完全一致，但是執行計劃中透露出的訊息卻可以幫助選擇更好的索引和寫出更優化的查詢語句... ...
SQL Server 資料庫部分常用語句小結

1. 查詢某存儲過程的訪問情況 SELECT TOP 1000 db_name(d.database_id) as DBName, s.name as 存儲名字, s.type_desc as 存儲類型, d.cached_time as SP添加到緩存的時間, d.last_execution_t ...
[20180914]oracle 12c 表 full_hash_value如何計算.txt

[20180914]oracle 12c 表 full_hash_value如何計算.txt--//昨天在12c下看表full_hash_value與11g的full_hash_value不同,不過12c使用pdb,猜測跟PDB有關.--//通過測試說明問題.1.環境:SCOTT@book> @ & ...
老闆今天問我為什麼公司的資料庫這麼爛，我是這樣回答的......

歡迎大家前往 "騰訊雲+社區" ，獲取更多騰訊海量技術實踐乾貨哦~ 本文由 "騰訊雲資料庫團隊 " 發表於 "雲+社區專欄" 作者介紹：簡懷兵，騰訊雲資料庫高級工程師，負責騰訊雲CDB內核及基礎設施建設；先後供職於Thomson Reuters和YY等公司，PTimeDB作者，曾獲一項發明專利；從事 ...
MySQL添加新用戶、為用戶創建資料庫、為新用戶分配許可權

登錄MySQL 添加新用戶允許本地 IP 訪問 localhost, 127.0.0.1 允許外網 IP 訪問刷新授權為用戶創建資料庫為新用戶分配許可權授予用戶通過外網IP對於該資料庫的全部許可權授予用戶在本地伺服器對該資料庫的全部許可權刷新許可權退出 root 重新登錄用新帳號 test ...