4.RDD操作

-Advertisement-

一、 RDD創建從本地文件系統中載入數據創建RDD sc：SparkContext（shell自動創建）本地文件系統中載入數據創建RDD Spark採用textFile()方法來從文件系統中載入數據創建RDD 該方法把文件的URI作為參數，這個URI可以是：本地文件系統的地址或者是分散式文件 ...

一、 RDD創建
二、 RDD操作
- 轉換操作
- 行動操作

一、 RDD創建

從本地文件系統中載入數據創建RDD

sc：SparkContext（shell自動創建）
本地文件系統中載入數據創建RDD

Spark採用textFile()方法來從文件系統中載入數據創建RDD
該方法把文件的URI作為參數，這個URI可以是：
- 本地文件系統的地址
- 或者是分散式文件系統HDFS的地址
- 或者是Amazon S3的地址等等

從HDFS載入數據創建RDD

啟動hdfs
上傳文件
查看文件
spark內載入文件

textFile預設是讀hdfs，所以hdfs可以省略。

hdfs的預設目錄，前三條語句是完全等價的，可以使用其中任意一種方式

不是預設目錄，要還上路徑
停止hdfs

通過並行集合（列表）創建RDD

輸入列表、字元串、numpy生成數組

二、 RDD操作

轉換操作

對於RDD而言，每一次轉換操作都會產生新的RDD，供給下一個“轉換”使用

轉換得到的RDD是惰性求值的，也就是說，整個轉換過程只是記錄了轉換的軌跡，並不會發生真正的計算，只有遇到行動操作時，才會發生真正的計算，開始從血緣關係源頭開始，進行物理的轉換操作

操作	含義
filter(func)	篩選出滿足函數func的元素，並返回一個新的數據集
map(func)	將每個元素傳遞到函數func中，並將結果返回為一個新的數據集
flatMap(func)	與map()相似，但每個輸入元素都可以映射到0或多個輸出結果
groupByKey()	應用於(K,V)鍵值對的數據集時，返回一個新的(K, Iterable)形式的數據集
reduceByKey(func)	應用於(K,V)鍵值對的數據集時，返回一個新的(K, V)形式的數據集，其中每個值是將每個key傳遞到函數func中進行聚合後的結果

filter(func)

顯式定義函數

結果不明顯，換個關鍵詞
lambda函數

map(func)

字元串分詞
- 顯式定義函數
- lambda函數
數字加100
- 顯式定義函數
- lambda函數
字元串加固定首碼
- 顯式定義函數
- lambda函數

flatMap(func)

分詞
單詞映射成鍵值對

reduceByKey()

統計詞頻，累加
乘法規則

groupByKey()

單詞分組
查看分組的內容
分組之後做累加 map

sortByKey()

詞頻統計按單詞排序

sortBy()

詞頻統計按詞頻排序

行動操作

行動操作是真正觸發計算的地方。Spark程式執行到行動操作時，才會執行真正的計算，從文件中載入數據，完成一次又一次轉換操作，最終，完成行動操作得到結果。

操作	含義
count()	返回數據集中的元素個數
collect()	以數組的形式返回數據集中的所有元素
first()	返回數據集中的第一個元素
take(n)	以數組的形式返回數據集中的前n個元素
foreach(func)	將數據集中的每個元素傳遞到函數func中運行
reduce(func)	通過函數func(輸入兩個參數並返回一個值)聚合數據集中的元素

foreach(func)

foreach(print)
foreach(lambda a:print(a.upper())

collect()

count()

take(n)

reduce()

數值型的rdd元素做累加
與reduceByKey區別

reduceByKey(func)應用於(K,V)鍵值對的數據集時，返回一個新的(K, V)形式的數據集，其中的每個值是將每個key傳遞到函數func中進行聚合後得到的結果

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Nacos配置中心集群原理及源碼分析

Nacos作為配置中心，必然需要保證服務節點的高可用性，那麼Nacos是如何實現集群的呢？下麵這個圖，表示Nacos集群的部署圖。 Nacos集群工作原理 Nacos作為配置中心的集群結構中，是一種無中心化節點的設計，由於沒有主從節點，也沒有選舉機制，所以為了能夠實現熱備，就需要增加虛擬IP（VI ...
SECS半導體設備通訊-4 GEM通信標準

一概述 GEM標准定義了通信鏈路上的半導體設備的行為。 SECS-II標准定義了在主機和設備之間交換的消息和相關數據項。GEM標準則定義了在哪種情況下應該使用哪些SECS-II消息以及由此產生的結果行為。圖1.1說明瞭GEM、SECS-II和其他通信替代方案之間的關係。 GEM為所有半導體設備定義 ...
手把手帶你使用Paint in 3D和Photon擼一個線上塗鴉畫板

Paint in 3D Paint in 3D用於在游戲內和編輯器里繪製所有物體。所有功能已經過深度優化，在WebGL、移動端、VR 以及更多平臺用起來都非常好用！它支持標準管線，以及 LWRP、HDRP 和 URP。通過使用GPU 加速，你的物體將以難以置信的速度被繪製。代碼還經過深度優化來防止 ...
Linux 0.11源碼閱讀筆記-塊設備驅動程式

內核代碼統一使用緩衝塊間接和塊設備（如磁碟）交換數據，緩衝區數據通過塊設備驅動程式和塊設備交換數據。 ...
Rabbitmq安裝與部署

一：安裝依賴軟體Erlang 安裝包otp_src_22.3.tar.gz，下載到部署伺服器tar -zxvf解壓 mv otp_src_22.3 ./erlang變更文件夾名字可能需要安裝的依賴包 yum -y install make gcc gcc-c++ kernel-devel m4 n ...
Linux 0.11源碼閱讀筆記-高速緩衝

高速緩衝概念高速緩衝區是記憶體中的一塊記憶體，在塊設備與內核其它程式之間起著一個橋梁作用。內核程式如果需要訪問塊設備中的數據，都需要經過高速緩衝區來間接的操作。高速緩衝區結構高速緩衝區被劃分為1k大小的緩衝塊，與磁碟塊大小一致。高速緩衝區主要包含兩部分內容，緩衝塊頭結構（buffer_head， ...
安裝clearos系統

鏡像下載、功能變數名稱解析、時間同步請點擊阿裡雲開源鏡像站一、clearos介紹 ClearOS是一個基於CentOS和Red Hat Enterprise Linux的簡單，開源，價格合理的Linux操作系統。它設計用於中小型企業作為伺服器或網路網關。二、clearos安裝下載地址：develo ...
Tomcat 介紹及使用教程

鏡像下載、功能變數名稱解析、時間同步請點擊阿裡雲開源鏡像站 1. Tomcat 介紹 Apache Tomcat 是由 Apache Software Foundation（ASF）開發的一個開源 Java WEB 應用伺服器。由於 Tomcat 是由 Java 語言實現的，因此需要運行在 Java 虛 ...