Spark基礎

-Advertisement-

Spark基礎 ① 快--基於記憶體的運算 ② 易用--支持java,python和Scala的API,shell互動式運用,還支持超過80種高級演算法 ③ 通用--spark提供了統一的解決方案,spark用於批處理,互動式查詢spark sql, 實時流處理spark streaming,機器學習s ...

Spark基礎

Spark是一種快速.通用.可擴展的大數據分析引擎,是基於記憶體計算的大數據並行計算框架,提高在大數據環境下數據處理的實時性,同時保證了高容錯性和高可伸縮性.
為什麼要學習spark--中間結果輸出
Spark特點

① 快--基於記憶體的運算

② 易用--支持java,python和Scala的API,shell互動式運用,還支持超過80種高級演算法

③ 通用--spark提供了統一的解決方案,spark用於批處理,互動式查詢spark sql, 實時流處理spark streaming,機器學習spark MLlib和圖計算Graphx

④ 相容性--方便與其他產品融合--不需要數據遷移就可以使用spark的強大處理功能,Spark也可以不依賴於第三方的資源管理和調度器，它實現了Standalone作為其內置的資源管理和調度框架.Spark還提供了在EC2上部署Standalone的Spark集群的工具。

Spark HA高可用部署

(1) Spark Standalone集群是Master-Slaves架構的集群,存在master單點故障問題

① 基於文件系統的單點回覆---開發測試環境

② 基於zookeeper的standby Masters---生產模式

Spark角色介紹

(1) Master-Slaves模型,master是集群中含有master繼承的節點,slave是集群中含有worker進程的節點

① Application:基於spark的應用程式,包含了driver程式和集群上的executor

② Driver Program:運行main函數並且創建SparkContext的程式

③ Cluter Manager:指的是在集群上獲取資源的外部服務--有三種類型

1) Standalon:spark源生的資源管理,由master負責資源的分配

2) Apache Mesos:與MR相容性良好的一種資源調度框架

3) Hadoop Yarn:主要是指Yarn中的ResourceManager

④ Worker Node:集群中任何可以運行Application代碼的節點，在Standalone模式中指的是通過slave文件配置的Worker節點，在Spark on Yarn模式下就是NoteManager節點

⑤ Executor:是在一個worker node上為某應用啟動的一個進程，該進程負責運行任務，並且負責將數據存在記憶體或者磁碟上。每個應用都有各自獨立的executor。

⑥ Task ：被送到某個executor上的工作單元。

Scala代碼

(1) sc.textFile("file:///root///words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

sc：Spark-Shell中已經預設將SparkContext類初始化為對象sc。用戶代碼如果需要用到，則直接應用sc即可。

textFile:讀取數據文件

flatMap:對文件中的每一行數據進行壓平切分,這裡按照空格分隔。

map:對出現的每一個單詞記為1（word，1）

reduceByKey:對相同的單詞出現的次數進行累加

collect:觸發任務執行，收集結果數據。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

linux系統編程：自己動手寫一個who命令

who命令的作用用於顯示當前有哪些用戶登錄到系統。這個命令執行的原理是讀取了系統上utmp文件中記錄的所有登錄信息，直接顯示出來的 utmp文件在哪裡呢？ man who的時候，在手冊下麵有這麼一段說明：意思就是不指定文件參數，那麼讀取的就是/var/run/utmp，到底是不是，驗證下當我指定 ...
Linux入門篇（五）——Shell（一）

這一系列的Linux入門都是本人在《鳥哥的Linux私房菜》的基礎上總結的基本內容，主要是記錄下自己的學習過程，也方便大家簡要的瞭解 Linux Distribution是Ubuntu而不是書本上推薦的CentOS，建議裝雙系統，不要使用虛擬機。代碼在github上：Linuxpractice 其 ...
項目實戰10.1—企業級自動化運維工具應用實戰-ansible

實戰環境：公司計劃在年底做一次大型市場促銷活動，全面衝刺下交易額，為明年的上市做準備。公司要求各業務組對年底大促做準備，運維部要求所有業務容量進行三倍的擴容，並搭建出多套環境可以共開發和測試人員做測試，運維老大為了在年底有所表現，要求運維部門同事儘快實現，當你接到這個任務時，有沒有更快的解決方式？ ...
GpG使用指南

1.GPG簡介 1991年，程式員Phil Zimmermann為了避開政府的監視，開發了加密軟體PGP。因為這個軟體非常好用，迅速流傳開來成為許多程式員的必備工具。但是，它是商業軟不能自由使用。所以，自由軟體基金會決定，開發一個PGP的替代品取名為GnuPG，因此GPG就誕生了。GPG是GNU P ...
linux socket編程：簡易客戶端與服務端

什麼是socket? socket起源於Unix，而Unix/Linux基本哲學之一就是“一切皆文件”，都可以用“打開open –> 讀寫write/read –> 關閉close”模式來操作。其實socket就是該模式的一個實現，socket即是一種特殊的文件，一些socket函數就是對其進行的操 ...
macos 命令行安裝 ipa

macos 命令行安裝 ipa 蘋果發神經後itunes已經無法在安裝app了，如果有知道的兄弟可以告訴我啊 "ideviceinstaller" 使用這個開源項目可以在macos下安裝app 安裝後，運行出現這個，可以看看這個 "issues" 我使用下麵這個方式成功解決 ...
Linux入門篇（三）——文件與目錄

這一系列的Linux入門都是本人在《鳥哥的Linux私房菜》的基礎上總結的基本內容，主要是記錄下自己的學習過程，也方便大家簡要的瞭解 Linux Distribution是Ubuntu而不是書本上推薦的CentOS，建議裝雙系統，不要使用虛擬機。代碼在github上：Linuxpractice 其 ...
linux網路編程:位元組序(大端、小端、網路、主機)

位元組序：就是數據在記憶體中的存放順序，也可稱之為端模式。大端模式和小端模式的定義 1) Little-Endian就是低位位元組排放在記憶體的低地址端，高位位元組排放在記憶體的高地址端。 2) Big-Endian就是高位位元組排放在記憶體的低地址端，低位位元組排放在記憶體的高地址端。 3) 網路位元組序：TCP/I ...