Spark使用Python開發和RDD

-Advertisement-

# 使用PySpark ## 配置python環境在所有節點上按照python3，版本必須是python3.6及以上版本 ```Shell yum install -y python3 ``` 修改所有節點的環境變數 ```Shell export JAVA_HOME=/usr/local/jdk ...

使用PySpark

配置python環境

在所有節點上按照python3，版本必須是python3.6及以上版本

yum install -y python3

修改所有節點的環境變數

export JAVA_HOME=/usr/local/jdk1.8.0_251
export PYSPARK_PYTHON=python3
export HADOOP_HOME=/bigdata/hadoop-3.2.1
export HADOOP_CONF_DIR=/bigdata/hadoop-3.2.1/etc/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

使用pyspark shell

/bigdata/spark-3.2.3-bin-hadoop3.2/bin/pyspark \
--master spark://node-1.51doit.cn:7077 \
--executor-memory 1g --total-executor-cores 10

在pyspark shell使用python編寫wordcount

sc.textFile("hdfs://node-1.51doit.cn:8020/data/wc").flatMap(lambda line: line.split(' ')).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b).sortBy(lambda t: t[1], False).saveAsTextFile('hdfs://node-1.51doit.cn:8020/out01')

在pycharm中使用python編寫wordcount

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName('WordCount').setMaster('local[*]')
    sc = SparkContext(conf=conf)
    lines = sc.textFile('file:///Users/star/Desktop/data.txt')
    words = lines.flatMap(lambda line: line.split(' '))
    wordAndOne = words.map(lambda word: (word, 1))
    reduced = wordAndOne.reduceByKey(lambda x, y: x + y)
    result = reduced.sortBy(lambda t: t[1], False)
    print(result.collect())

RDD

RDD的全稱為Resilient Distributed Dataset，是一個彈性、可複原的分散式數據集，是Spark中最基本的抽象，是一個不可變的、有多個分區的、可以並行計算的集合。RDD中並不裝真正要計算的數據，而裝的是描述信息，描述以後從哪裡讀取數據，調用了用什麼方法，傳入了什麼函數，以及依賴關係等。

RDD的特點

• 有一系列連續的分區：分區編號從0開始，分區的數量決定了對應階段Task的並行度
• 有一個函數作用在每個輸入切片上或對應的分區上: 每一個分區都會生成一個Task，對該分區的數據進行計算，這個函數就是具體的計算邏輯
• RDD和RDD之間存在一系列依賴關係：RDD調用Transformation後會生成一個新的RDD，子RDD會記錄父RDD的依賴關係，包括寬依賴（有shuffle）和窄依賴（沒有shuffle）
• （可選的）K-V的RDD在Shuffle會有分區器，預設使用HashPartitioner
• （可選的）如果從HDFS中讀取數據，會有一個最優位置：spark在調度任務之前會讀取NameNode的元數據信息，獲取數據的位置，移動計算而不是移動數據，這樣可以提高計算效率。

RDD的運算元（方法）分類

• Transformation：即轉換運算元，調用轉換運算元會生成一個新的RDD，Transformation是Lazy的，不會觸發job執行。

• Action：行動運算元，調用行動運算元會觸發job執行，本質上是調用了sc.runJob方法，該方法從最後一個RDD，根據其依賴關係，從後往前，劃分Stage，生成TaskSet。

創建RDD的方法

• 從HDFS指定的目錄據創建RDD

val lines: RDD[String] = sc.textFile("hdfs://node-1.51doit.cn:9000/log")

• 通過並行化方式，將Driver端的集合轉成RDD

 val rdd1: RDD[Int] = sc.parallelize(Array(1,2,3,4,5,6,7,8,9))

查看RDD的分區數量

val rdd1: RDD[Int] = sc.parallelize(Array(1,2,3,4,5,6,7,8,9))
rdd1.partitions.length

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Vegeta HTTP 負載測試工具

Go介面壓測的第三方包，一個很好用的負載測試工具。**vegeta測試工具組件（可執行文件）**支持linux以及mac系統，這裡指的是通過終端命令行進行進行測試，不需要從代碼層面使用這個工具的時候支持linux以及mac系統，在windows上可能會出現問題。但是通過**vegeta包代碼執行** ...
Winform 巨好看的控制項庫推薦：MaterialSkin.2

> [MaterialSkin.2](https://www.nuget.org/packages/MaterialSkin.2 "MaterialSkin.2") 控制項包是在 [MaterialSkin](https://github.com/IgnaceMaes/MaterialSkin "Ma ...
使用HttpLogging中間件記錄介面請求日誌

## 介紹 1. HttpLogging 是 .NET 6 新加入的一個框架內置的中間件 2. 可以提供以下信息的日誌: - HTTP請求信息 - Common properties - Headers - Body - HTTP響應信息 ## 使用添加 ```csharp builder.Ser ...
創建Avalonia 模板項目-基礎

# 創建Avalonia 模板項目-基礎 Avalonia是一個跨平臺的.NET框架，用於構建漂亮、現代的圖形用戶界面（GUI）。使用Avalonia，您可以從單個代碼庫創建適用於Windows、macOS、 Linux、iOS、Android和Web Assembly的原生應用程式。本文部分內容 ...
Taurus .Net Core 微服務開源框架：Admin 插件【3】 - 指標統計管理

繼上篇：Taurus .Net Core 微服務開源框架：Admin 插件【2】 - 系統環境信息管理，本篇繼續介紹下一個內容：系統指標節點... ...
安裝Firefox問題

在使用Quark-n開發板時，想打開瀏覽器網上衝浪，但是出現了下麵的情況。說明我沒有這個軟體，那就安裝一手。 1、先執行軟體更新，在終端中敲入指令 sudo apt-get update 2、更新Firefox sudo apt install firefox 然後蹦出來這個畫面： apt使用出錯 ...
CentOS 7 下/etc/ssh/sshd_config 文件解釋

CentOS 7 下/etc/ssh/sshd_config 文件詳解 SSH由客戶端和服務端的軟體組成，在客戶端可以使用的軟體有SecureCRT、putty、Xshell等，而在伺服器端運行的是一個sshd的服務，通過使用SSH，可以把所有傳輸的數據進行加密，而且也能夠防止dns和IP欺騙，此外 ...
使用FinallShell遠程登錄Linux伺服器

# 痞子衡嵌入式半月刊：第 78 期 ![](http://henjay724.com/image/cnblogs/pzh_mcu_bi_weekly.PNG) 這裡分享嵌入式領域有用有趣的項目/工具以及一些熱點新聞，農曆年分二十四節氣，希望在每個交節之日準時發佈一期。本期刊是開源項目（GitH ...