Spark SQL,如何將 DataFrame 轉為 json 格式

来源:https://www.cnblogs.com/listenfwind/archive/2018/12/06/10078884.html
-Advertisement-
Play Games

今天主要介紹一下如何將 Spark dataframe 的數據轉成 json 數據。用到的是 scala 提供的 json 處理的 api。 用過 Spark SQL 應該知道,Spark dataframe 本身有提供一個 api 可以供我們將數據轉成一個 JsonArray,我們可以在 spar ...


今天主要介紹一下如何將 Spark dataframe 的數據轉成 json 數據。用到的是 scala 提供的 json 處理的 api。

用過 Spark SQL 應該知道,Spark dataframe 本身有提供一個 api 可以供我們將數據轉成一個 JsonArray,我們可以在 spark-shell 裡頭舉個慄子來看一下。

import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().master("master").appName("test").config("spark.sql.warehouse.dir", warehouseLocation).enableHiveSupport().getOrCreate();
//提供隱式轉換功能,比如將 Rdd 轉為 dataframe
import spark.implicits._

val df:DataFrame = sc.parallelize(Array(("abc",2),("efg",4))).toDF()
df.show()
/*-------------show -----------
+---+---+
| _1| _2|
+---+---+
|abc|  2|
|efg|  4|
+---+---+
*/

//這裡使用 dataframe Api 轉換成 jsonArray
val jsonStr:String = a.toJSON.collectAsList.toString
/*--------------- json String-------------
[{"_1":"abc","_2":2}, {"_1":"efg","_2":4}]
*/

可以發現,我們可以使用 dataframe 提供的 api 直接將 dataframe 轉換成 jsonArray 的形式,但這樣子卻有些冗餘。以上面的例子來說,很多時候我要的不是這樣的形式。

[{"_1":"abc","_2":2}, {"_1":"efg","_2":4}]

而是下麵這種形式。

[{"abc":2}, {"efg":4}]

這才是我們通常會使用到的 json 格式。以 dataframe 的 api 轉換而成的 json 明顯太過冗餘。為此,我們需要藉助一些 json 處理的包,本著能懶則懶的原則,直接使用 scala 提供的 json 處理包。

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().master("master").appName("test").config("spark.sql.warehouse.dir", warehouseLocation).enableHiveSupport().getOrCreate();
//提供隱式轉換功能,比如將 Rdd 轉為 dataframe
import spark.implicits._

val df:DataFrame = sc.parallelize(Array(("abc",2),("efg",4))).toDF()
df.show()
/*-------------show -----------
+---+---+
| _1| _2|
+---+---+
|abc|  2|
|efg|  4|
+---+---+
*/

//接下來不一樣了
val df2Array:Array[Tuple2[String,Int]] = df.collect().map{case org.apache.spark.sql.Row(x:String,y:Int) => (x,y)}

val jsonData:Array[JSONObject] = aM.map{ i =>
  new JSONObject(Map(i._1 -> i._2))
}

val jsonArray:JSONArray = new JSONArray(jsonData.toList)
/*-----------jsonArray------------
[{"abc" : 2}, {"efg" : 4}]
*/

大概說明一下上述的代碼,首先我們要先將 df 變數進行 collect 操作,將它轉換成 Array ,但是要生成 jsonObject 得是 Array[Tuple2[T,T]] 的格式,所以我們需要再進一步轉換成對應格式。這裡的 map 是函數式編程裡面的 map 。

然後也是用 map 操作生成 Array[JSONObject],最後再轉換成 JSONArray 就可以。

將數據轉換成 json 的格式通常不能太大,一般用在 spark 跑出數據結果後寫入到其他資料庫的時候會用到,比如 Mysql 。

以上~~


歡迎關註公眾號哈爾的數據城堡,裡面有數據,代碼,以及深度的思考。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 需求:外部人員需要對公司伺服器上某個文件夾內容進行讀寫操作 文件目錄信息:/opt/abc drwxr-xr-x 9 www www 4096 12月 4 13:02 abc #註意最初abc的www用戶組沒有寫許可權 為了後面的ftp用戶能夠對此文件具備寫操作,需要添加www用戶組的寫許可權: chm ...
  • 工欲善其事,必先利其器。作為一款強大的開源軟體,Zabbix號稱“Monitor Everything”,其所依賴的,很大程度上便是SNMP的數據採集支持。SNMP 協議是用來管理設備的協議,目前SNMP已成為網路管理領域中事實上的工業標準,並被廣泛支持和應用,大多數網路管理系統和平臺都是基於SNM ...
  • 1. 測試環境 Ubuntu 16.04 x64、ROS Kinetic、Velodyne VLP 16、RoboWare Studio 2. 安裝 ROS 功能包 3. 連接激光雷達 網線直連本機與激光雷達,已知 Velodyne VLP 16 的 IP 地址為 192.168.1.201,配置本 ...
  • 添加Zabbix存儲庫安裝存儲庫配置包。 該軟體包包含yum(軟體包管理器)配置文件。 前端安裝先決條件Zabbix前端需要額外的基本安裝包。 您需要在將運行Zabbix前端的系統中啟用可選rpms的存儲庫: 伺服器/代理/前端安裝要在MySQL支持下安裝Zabbix伺服器(適用於RHEL 7,在R ...
  • Linux系統中的wc(Word Count)命令的功能為統計指定文件中的位元組數、字數、行數,並將統計結果顯示輸出。 一.命令格式 wc [ clw][ help][ version][文件...] 二.命令功能 利用wc指令我們可以計算文件的Byte數、字數、或是列數,若不指定文件名稱、或是所給予 ...
  • 截至寫這篇博客為止,MariaDB官方的穩定版本為,詳情訪問官方地址:https://downloads.mariadb.org/ 安裝之前先簡單說一下MariaDB: MariaDB由MySQL的創始人麥克爾·維德紐斯主導開發,他早前曾以10億美元的價格,將自己創建的公司MySQL賣給了SUN,此 ...
  • 個人原創,轉載請在文章頭部明顯位置註明出處:https://www.cnblogs.com/sunshine5683/p/10080102.html 在上一篇進階中大概講解了一些關於進階方面的知識,今天就將進階內容做個總結! 一、OracleServer實例DB的概念: 1、Oracle關係資料庫管 ...
  • 1. 下載版本,官網:https://dev.mysql.com/downloads/mysql/ 2. 解壓 3. mysql-5.7.24-winx64目錄下創建一個名為data的空文件夾、創建一個my.ini的文件放在bin目錄裡面(不要放在mysql文件夾下),內容: [mysql] # 設 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...