即將發佈的 Apache Spark 2.4 版本是 2.x 系列的第五個版本。 本文對 Apache Spark 2.4 的主要功能和增強功能進行了概述。 新的調度模型(Barrier Scheduling),使用戶能夠將分散式深度學習訓練恰當地嵌入到 Spark 的 stage 中,以簡化分佈... ...
本文來自於2018年09月19日在 Adobe Systems Inc 舉行的 Apache Spark Meetup。
即將發佈的 Apache Spark 2.4 版本是 2.x 系列的第五個版本。 本文對 Apache Spark 2.4 的主要功能和增強功能進行了概述。
-
新的調度模型(Barrier Scheduling),使用戶能夠將分散式深度學習訓練恰當地嵌入到 Spark 的 stage 中,以簡化分散式訓練工作流程。
-
添加了35個高階函數,用於在 Spark SQL 中操作數組/map。
-
新增一個新的基於 Databricks 的 spark-avro 模塊的原生 AVRO 數據源。
-
PySpark 還為教學和可調試性的所有操作引入了熱切的評估模式(eager evaluation mode)。
-
Spark on K8S 支持 PySpark 和 R ,支持客戶端模式(client-mode)。
-
Structured Streaming 的各種增強功能。 例如,連續處理(continuous processing)中的有狀態操作符。
-
內置數據源的各種性能改進。 例如,Parquet 嵌套模式修剪(schema pruning)。
-
支持 Scala 2.12。
點擊 示說網 ,即可下載此PPT。
本文來自示說網smilegator主頁 ,全文地址請點擊:https://www.slidestalk.com/s/20180919WhatsNewinUpcomingApacheSpark24final78282