Spark RDD理解

来源:https://www.cnblogs.com/locea-article/archive/2018/06/08/9127474.html
-Advertisement-
Play Games

RDD是spark的核心,先感性的先認識RDD,大體上對RDD進行了分類操作 ...


目錄

----RDD簡介

----RDD操作類別

----RDD分區

----寬依賴和窄依賴作用

----RDD分區劃分器

----RDD到調度

返回頂部

RDD簡介

RDD是彈性分散式數據集(Resilient Distributed Dataset),能在並行計算階段進行高效的數據共用;RDD還提供了一種粗粒度介面,該介面會將相同的操作應用到多個數據集上並記錄創建數據集的‘血統’,從而在不需要存儲真正的數據的情況下,達到高效的容錯性。

返回頂部

RDD操作類別

RDD操作大致可分為四類:創建操作、轉換操作、控制操作、行動操作;在這些大類的基礎上還能劃為些細類,下麵是大部分的RDD操作,以及其細類劃分情況。  

 

返回頂部

RDD分區

分區的多少決定RDD的並行粒度;分區是邏輯概念,分區前後可能存儲在同一記憶體;RDD分區之間存在依賴關係,分為寬依賴和窄依賴

寬依賴:多個子RDD分區依賴一個父RDD分區;如join,groupBy操作;

窄依賴:窄依賴:每個父RDD的分區都至多被被一個子RDD的分區使用;如map操作一對一關係

返回頂部

寬依賴和窄依賴作用

窄依賴允許在單個集群節點上流水線式執行,這個節點可以計算所有父級分區;而且,在窄依賴中,節點失敗後的恢復更加高效

寬依賴的繼承關係中,單個失敗節點可能導致一個RDD的所有祖先RDD中的一些分區丟失,導致計算重新執行

返回頂部

RDD分區劃分器

spark中RDD計算是以分區為單位的,而計算函數都是在迭代器中複合;分區計算一般使用mapPartitions等計算。

spark提供了兩種預設的分區劃分器,一種是HashPartitioner(哈希分區劃分器),另一種是RangePartitioner(範圍分區劃分器)

返回頂部

RDD到調度

RDD轉換操作屬於lazy級別,會延遲執行,作業的提交是由行動操作觸發。當執行RDD行動操作時觸發作業的提交,然後會根據RDD之間的關係構建DAG(有向無環圖),再提交給DAGScheduler進行解析;解析之後會得到調度階段Stage,也就是taskSet;最後TashScheduler進一步解析得到task,task將會在Worker中Executor裡面執行。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 背景:最近公司有個需求,外網希望自動保存數據到內網,內網有2台伺服器可以相互訪問,其中一臺伺服器外網可以訪問,於是想在 這台伺服器上放個中轉的介面。後來做出來以後測試發現沒有問題就放線上去了,不顧發現工程助理 在使用是時候沒有自動上傳 ,於是猜想可能是文件過大被限制了。 使用Fiddle測試後發現確 ...
  • 最近在做項目過程中,經常會遇到生成訂單流水號唯一性的應用,也有不少同事也請教我對唯一性的 "流水號"的問題,根據個人所見,一般生成的規則都是根據日期來進行操作,我目前在做的一個項目:”報告卡“上的編碼就是根據 ”yyyyMMdd+四位數字(累加)“的格式生成,一般對這一類的操作最好是在存儲過程中生成 ...
  • 使用Vim編輯器寫腳本時,經常會遇到多重迴圈語句,習慣上會用tab鍵來補齊。這時設置tab鍵占用的長度,可以調節界面的鬆緊度,使其達到令人滿意的效果。 在針對個別用戶和所有用戶來設置時,與編輯SSH相應的配置文件十分類似。 一.設置當前用戶的Tab鍵的長度 編輯配置文件~/.vimrc即可 保存並退 ...
  • 1. 使用系統和軟體 2. 必要的包安裝 3. 安裝Jdk【java8】 3.1. 軟體安裝 3.2. 環境變數 4. 安裝maven 4.1. 軟體安裝 4.2. 環境變數 5. 安裝ant 5.1. 軟體安裝 5.2. 環境變數 6. 安裝findbugs 6.1. 軟體安裝 6.2. 環境變數 ...
  • 網盤下載:http://tadown.com/fs/9yi0be9nschue6b67/ ...
  • load average 的含義平均負載(load average)是指系統的運行隊列的平均利用率,也可以認為是可運行進程的平均數。 top命令中load average顯示的是最近1分鐘、5分鐘和15分鐘的系統平均負載。系統平均負載表示 系統平均負載被定義為在特定時間間隔內運行隊列中(在CPU上運 ...
  • linux 查看系統當前時間,修改時間1. 查看時間和日期命令 : "date"2.設置時間和日期例如:將系統日期設定成2018年6月8日的命令命令 : "date -s 06/08/2018"將系統時間設定成下午10點46分03秒的命令命令 : "date -s 10:46:03" ...
  • 一、列表 list 列表是有序的,列表元素可以被修改 list之灰魔法 1、列表格式: 中括弧括起來, 逗號分隔每個元素, 列表中的元素可以是數字、字元串、列表、布爾值、等所有的都能放進去 “集合“,”內部可以放置任何東西 li=['alex', '小名', [12, 23, 45], 23, 23 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...