Spark高級運算元aggregate所遇到的坑

来源:https://www.cnblogs.com/hgc-bky/archive/2020/05/09/12854784.html
-Advertisement-
Play Games

val rdd3 = sc.parallelize(List("12","23","345","4567"),2) rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y) 兩個分區先計算出字 ...


val rdd3 = sc.parallelize(List("12","23","345","4567"),2)

rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y)

兩個分區先計算出字元串的最大長度,然後合成字元串

結果可能是:”24”,也可能是:”42”,體現了並行化特點。

 

val rdd4 = sc.parallelize(List("12","23","345",""),2)

rdd4.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

結果是:”10”,也可能是”01”,

原因:註意有個初始值””,其長度0,然後0.toString變成字元串。值"0".toString的長度為0,"0".toString.length的長度為1 。分區可能為(“12”,“23”)和(“345”,“”);初始值為"",然後初始值和“12”,“34”比較,或者是""和“345”比較,然後和“”比較。

math.min("".length, "12".length ) 的結果是:0 , math.min("0".length, "23".length ) 的結果是1

math.min("".length, "345".length) 的結果是:0 , math.min("0".length, "".length)  的結果是:0  

 

val rdd5 = sc.parallelize(List("12","23","","345"),2)

rdd5.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

結果是:”11”,原因如下:

math.min("".length, "12".length ) 的結果是:0 , math.min("0".length, "23".length ) 的結果是:1  

math.min("".length, "".length) 的結果是:0 , math.min("0".length, "345".length) 的結果是:1  

註意:值"0".toString的長度為0,"0".toString.length的長度為1


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 十三、mysql高可用 1、普通主從複製架構存在的不足 高可用? 業務不間斷的工作。 用戶的體驗不出來業務斷點。 普通主從環境,存在的問題: 2、企業高可用解決方案: MMM(過時) MHA(目前推薦) PXC、Galera Cluster(出現很多年,企業很少用) 5.7.17 MGR 、Inno ...
  • 十二、mysql主從複製 1、主從複製原理 1.主從複製的前提: 1.1兩台mysql實例(多台物理機,或者多實例) 1.2主庫要開啟二進位日誌 1.3主庫要提供複製相關用戶,replication slave,一個比較特殊的許可權。 1.4從庫需要將和主庫相差的數據,進行追加 一般情況下可以人為備份 ...
  • DDL語言庫與表的管理(創建、修改、刪除)、一些常見的數據類型(整形、浮點|定點、日期,字元) ...
  • 創建資料庫 -- Firsr way CREATE DATABASE database_name; -- Second way CREATE SCHEMA database_name; 2.創建表 CREATE TABLE birds( bird_id INT AUTO_INCREMENT PRIM ...
  • 思考: 大家可以思考一下下麵sql語句寫的有沒有問題? select jg.id as goodsId,jm.name,... from jdy_merchant jm left outer join jdy_express_template jet on jet.id = jg.freight l ...
  • MongoDB Manual (Version 4.2) Replication MongoDB中的副本集是一組維護相同數據集合的 mongod進程。副本集提供了冗餘和高可用性,並且這是所有生產部署的基礎。本節介紹MongoDB中的複製以及副本集的組件和體繫結構,並提供副本集常見任務的教程。 No1 ...
  • 摸清數據產生量如何,如果是1鈔鐘1條記錄,則一臺車一天就有86400條記錄,則建議如下: 1、每臺車使用單獨的表,程式內部使用CreateTable,動態創建表,銷毀表。這樣車與車之間不會產生聯繫。 前提:系統管理的車應該不會經常變來變去,沒有很多關聯查詢出多臺車軌跡的需求。 2、建立當前表、歷史表 ...
  • 表結構 student(StuId,StuName,StuAge,StuSex) 學生表 teacher(TId,Tname) 教師表 course(CId,Cname,C_TId) 課程表 sc(SId,S_CId,Score) 成績表 問題七:查詢學過“葉平”老師所教的所有課的同學的學號、姓名 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...