RDD介紹_ZenDei技術網路在線

RDD介紹

-Advertisement-

（本人初次接觸spark可能有些地方理解的不夠到位，希望各位讀者多多指正，對於不恰當的地方也會進行改進） 1、RDD定義：是彈性分散式數據集，是分佈到各個節點的數據集合，具有自動容錯性、位置感知調度和可伸縮性等。 2、RDD的特性： 2.1 分區（partition）分區是RDD的基本組成單位（s ...

（本人初次接觸spark可能有些地方理解的不夠到位，希望各位讀者多多指正，對於不恰當的地方也會進行改進）

1、RDD定義：是彈性分散式數據集，是分佈到各個節點的數據集合，具有自動容錯性、位置感知調度和可伸縮性等。

2、RDD的特性：

2.1 分區（partition）

分區是RDD的基本組成單位（spark並行處理的基本單元），屬於RDD的子集。每個分區的計算都是獨立執行的，並且分佈到Slave節點上去計算。每個節點上可能會有多個分區，每個分區有對應的Task線程。

2.2 依賴

由於RDD之間的轉換操作可以從已有RDD創建出新的RDD，一次新舊RDD之間必定會存在著某種聯繫，這種關係就被稱為依賴。

依賴的分類：

窄依賴：父RDD的每個分區最多被子RDD的一個分區所依賴（一對一的關係）；

寬依賴：父RDD的每個分區可被子RDD的多個分區所依賴（一對多的關係）。

窄依賴和寬依賴的比較：

（1）窄依賴：子RDD中的某個分區出錯，可以方便的計算出其父RDD所對應的分區，然後進行重新計算生成子RDD對應的分區；

（2）子RDD出錯可能導致父RDD的多個分區進行重新計算。

union操作是將兩個RDD中的元素進行合併，將結果封裝成新的RDD，類似與兩個集合的合併運算。 join針對Key-Value對形式的兩個RDD進行連接操作，連接的依據是Key值，其功能與關係型資料庫中表的內連接操作相同。

3、RDD的創建：

RDD的創建有三種方式：基於集合進行創建、基於外部存儲創建、根據已有RDD進行創建（RDD的創建操作）。

基於集合創建提供了parallelize和makeRDD兩個操作。對於基於外部存儲創建，通常是從HDFS中獲取數據，常用的操作就是textFile。

4、RDD的操作：

RDD的操作大致上可以分為兩類：轉換操作（Transformation）和執行操（Action）作。

轉換操作就是根據已有RDD生產新的RDD，且具有惰性策略（只有執行了執行操作才會被提交到各個節點去計算）。執行操作就是向驅動程式返回結果或者是將結果寫入外部存儲系統。

RDD的創建和轉換操作：

5、持久化操作

持久化操作是為了避免RDD被重新計算，能夠提高計算速度。

操作：persist（持久化到磁碟或記憶體）、cache（持久化到記憶體）、checkpiont（持久化到磁碟）。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

[20171225]變態的windows批處理4.txt

[20171225]變態的windows批處理4.txt--//昨天學習windows 批處理的echo &.使用它可以實現類似回車換行的功能.例子:1.echo &.R:\>echo 1111 & echo 222211112222--//但是如果寫成如下:R:\>echo 1111 & echo ...
超詳細的 Linux CentOS yum 源的配置與使用【轉發+新增】

一、yum 簡介 yum，是Yellow dog Updater, Modified 的簡稱，是杜克大學為了提高RPM 軟體包安裝性而開發的一種軟體包管理器。起初是由yellow dog 這一發行版的開發者Terra Soft 研發，用python 寫成，那時還叫做yup(yellow dog up ...
HDFS High Availability Using the Quorum Journal Manager

http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 背景在Hadoop 2.0.0以前，在一個HDFS集群中NameNode存在單點故障。每個集群 ...
HDFS Federation

http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/Federation.html Background HDFS有兩個主要的層： Namespace 由目錄、文件和塊組成它支持所有的文件系統命名空間操作，比如， ...
mysql下，保存時間時具體時間丟失，只保存了日期的問題

這邊將日誌信息記入資料庫時，發現資料庫日誌具體時間丟失，只保留了日期。我這邊環境是（SRPINGMVC+Mybatis，mysql版本5.6.28以上），java層使用類型為java.util.Date，數據欄位類型為date 參考了一些網上的說法，基本描述是說： date：只有日期，沒有時間，2 ...
mysql 查兩個表之間的數據差集

需要查兩個表之間的差集首先，想到的是主鍵直接not in 好吧！這個是可以，但是數據多了的話，想到這個查詢的邏輯有點受不住於是再改為下麵的這樣：利用了left join的，然後進行對比，並且利用where進行篩選。後面也在網上找了這條：概念上與第二條同理。好吧！回顧了一下left jo ...
redis詳解(持續更新)

Redis概述 Redis是一種key-value型資料庫，運行於記憶體中，與它相似的資料庫有memcached，現在基本被Redis替代。 Redis適用場景我們要與傳統的關係型資料庫進行對比才能更好的瞭解與使用Redis 1.高併發場景， redis是個單線程的程式對於純記憶體操作如hash查找可 ...
(Les15 Generating Reports by GroupingRelated Data)[20171226]

學習目標： -使用ROLLUP操作符產生小計值 -使用CUBE操作符產生交叉製表 -使用GROUPING函數來標識ROLLUP或CUBE運算符生成的結果集中的聚合級別 -使用GROUPING SETS生成一個相當於UNION ALL方法的結果集 ROLLUP操作符 SELECT [column,] ...