如何在Spark鍵值對數據中,對指定的Key進行輸出/篩選/模式匹配

来源:https://www.cnblogs.com/h4o3/p/18404233
-Advertisement-
Play Games

在用鍵值對RDD進行操作時,經常會遇到不知道如何篩選出想要數據的情況,這裡提供了一些解決方法 目錄1、對固定的Key數據進行查詢2、對不固定的Key數據進行模糊查詢 1、對固定的Key數據進行查詢 代碼說明: SparkConf:配置 Spark 應用程式的一些基本信息。 SparkContext: ...


在用鍵值對RDD進行操作時,經常會遇到不知道如何篩選出想要數據的情況,這裡提供了一些解決方法


目錄


1、對固定的Key數據進行查詢

代碼說明:

  1. SparkConf:配置 Spark 應用程式的一些基本信息。
  2. SparkContext:創建 Spark 上下文以在 Spark 中執行操作。
  3. parallelize:生成一個包含多個鍵值對的初始 RDD。
  4. filter:使用 filter 方法篩選出 key 等於指定值的元素。
  5. collect:收集結果併在驅動程式上進行輸出。
  6. foreach:用來遍歷和列印過濾後的結果。
import org.apache.spark.{SparkConf, SparkContext}

object KeyFilterExample {
  def main(args: Array[String]): Unit = {
    // 初始化 SparkContext
    val conf = new SparkConf().setAppName("Key Filter Example").setMaster("local[*]")
    val sc = new SparkContext(conf)

    // 創建一個示例 RDD,包含 key-value 鍵值對
    val rdd = sc.parallelize(Seq(("a", 1), ("b", 2), ("c", 3), ("a", 4), ("b", 5)))

    // 定義要篩選的特定 key
    val specifiedKey = "a"

    // 使用 filter 操作輸出指定的 key 值
    val filteredRdd = rdd.filter { case (key, _) => key == specifiedKey }

    // 輸出結果
    filteredRdd.collect().foreach { case (key, value) =>
      println(s"Key: $key, Value: $value")
    }

    // 停止 SparkContext
    sc.stop()
  }
}



2、對不固定的Key數據進行模糊查詢

代碼說明:

  1. SparkConfSparkContext:與之前示例相同,用於初始化 Spark 應用。
  2. parallelize:生成一個包含多個鍵值對的初始 RDD。
  3. filter:使用 Scala 的模式匹配功能來篩選出以字母 'a' 開頭的 keys。
    • case (key, _) if key.startsWith("a"):當 key 以 'a' 開頭時,返回 true,否則返回 false
  4. collect:收集結果併在驅動程式上進行輸出。
  5. foreach:遍歷並列印過濾後的結果。
import org.apache.spark.{SparkConf, SparkContext}

object PatternMatchingKeyExample {
  def main(args: Array[String]): Unit = {
    // 初始化 SparkContext
    val conf = new SparkConf().setAppName("Pattern Matching Key Example").setMaster("local[*]")
    val sc = new SparkContext(conf)

    // 創建一個示例 RDD,包含 key-value 鍵值對
    val rdd = sc.parallelize(Seq(("apple", 1), ("banana", 2), ("apricot", 3),
                                  ("berry", 4), ("avocado", 5)))

    // 使用 filter 操作與模式匹配篩選以 'a' 開頭的 keys
    val patternMatchedRdd = rdd.filter { 
      case (key, _) if key.startsWith("a") => true
      case _ => false
    }

    // 輸出結果
    patternMatchedRdd.collect().foreach { case (key, value) =>
      println(s"Key: $key, Value: $value")
    }

    // 停止 SparkContext
    sc.stop()
  }
}

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • nohup [命令] >/dev/null 2>&1 & 示例: nohup /bin/sh -c 'cd /home/server/dotnet/DotnetDatamining && dotnet DotnetDatamining.dll "--desc=xxx服務 訪問埠號5028"' >/ ...
  • 1.Haproxy與Keepalived VRRP 介紹 軟體:haproxy 主要是做負載均衡的7層,也可以做4層負載均衡 apache也可以做7層負載均衡,但是很麻煩。實際工作中沒有人用。 nginx可以做7層的負載,性能強大,多在實際工作中使用。 負載均衡是通過OSI協議對應的【1】 7層負載 ...
  • Scoop 安裝 環境需求 PowerShell 5 + .NET Framework 4.5 + 安裝 指定安裝位置(配置環境變數) 以管理員身份打開PowerShell $env:SCOOP='D:\Applications\Scoop' [Environment]::SetEnvironmen ...
  • tcp mem 相關 net.ipv4.tcp_rmem = 4096 131072 6291456 讀取緩衝區,單位位元組 net.ipv4.tcp_wmem = 4096 16384 4194304 發送緩衝區,單位位元組 net.ipv4.tcp_mem = 760707 1014278 1521 ...
  • 導讀:數據同步方式的重要性對於數據集成領域的興從業者不言而喻,選擇正確的數據同步方式能讓數據同步工作的成果事半功倍。目市面上的數據同步工具很多,提供的數據同步方式也有多種,不同的數據同步方式有什麼區別?如何選擇適合自己業務需求的數據同步方式呢?本文將對此進行深入分析,並深入剖析WhaleTunnel ...
  • 《數據資產管理核心技術與應用》是清華大學出版社出版的一本圖書,全書共分10章,第1章主要讓讀者認識數據資產,瞭解數據資產相關的基礎概念,以及數據資產的發展情況。第2~8章主要介紹大數據時代數據資產管理所涉及的核心技術,內容包括元數據的採集與存儲、數據血緣、數據質量、數據監控與告警、數據服務、數據許可權 ...
  • 介紹: MyBatis-Plus 是基於 MyBatis 框架的一個增強工具,主要目的是簡化 MyBatis 的開發過程,提供更加簡潔、方便的 CRUD 操作。它是在保留 MyBatis 強大功能的基礎上,通過封裝和優化一些常見操作來提高開發效率。 MyBatis-Plus 提供了許多開箱即用的功能 ...
  • 時空人工智慧 時空人工智慧是AI領域的新型創新應用技術,定義為以時空為‘索引’對多源異構數據進行時空化治理和融合,並借力知識工程和AI演算法進行智能化分析,從而挖掘知識和輔助決策。時空AI是地理空間智能、城市空間智能和時空大數據智能等的統一表示,包括從時空感知、認知到決策預知的多項核心技術。其應用生態 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...