Spark SQL,如何將 DataFrame 轉為 json 格式

来源:https://www.cnblogs.com/listenfwind/archive/2018/12/06/10078884.html
-Advertisement-
Play Games

今天主要介紹一下如何將 Spark dataframe 的數據轉成 json 數據。用到的是 scala 提供的 json 處理的 api。 用過 Spark SQL 應該知道,Spark dataframe 本身有提供一個 api 可以供我們將數據轉成一個 JsonArray,我們可以在 spar ...


今天主要介紹一下如何將 Spark dataframe 的數據轉成 json 數據。用到的是 scala 提供的 json 處理的 api。

用過 Spark SQL 應該知道,Spark dataframe 本身有提供一個 api 可以供我們將數據轉成一個 JsonArray,我們可以在 spark-shell 裡頭舉個慄子來看一下。

import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().master("master").appName("test").config("spark.sql.warehouse.dir", warehouseLocation).enableHiveSupport().getOrCreate();
//提供隱式轉換功能,比如將 Rdd 轉為 dataframe
import spark.implicits._

val df:DataFrame = sc.parallelize(Array(("abc",2),("efg",4))).toDF()
df.show()
/*-------------show -----------
+---+---+
| _1| _2|
+---+---+
|abc|  2|
|efg|  4|
+---+---+
*/

//這裡使用 dataframe Api 轉換成 jsonArray
val jsonStr:String = a.toJSON.collectAsList.toString
/*--------------- json String-------------
[{"_1":"abc","_2":2}, {"_1":"efg","_2":4}]
*/

可以發現,我們可以使用 dataframe 提供的 api 直接將 dataframe 轉換成 jsonArray 的形式,但這樣子卻有些冗餘。以上面的例子來說,很多時候我要的不是這樣的形式。

[{"_1":"abc","_2":2}, {"_1":"efg","_2":4}]

而是下麵這種形式。

[{"abc":2}, {"efg":4}]

這才是我們通常會使用到的 json 格式。以 dataframe 的 api 轉換而成的 json 明顯太過冗餘。為此,我們需要藉助一些 json 處理的包,本著能懶則懶的原則,直接使用 scala 提供的 json 處理包。

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().master("master").appName("test").config("spark.sql.warehouse.dir", warehouseLocation).enableHiveSupport().getOrCreate();
//提供隱式轉換功能,比如將 Rdd 轉為 dataframe
import spark.implicits._

val df:DataFrame = sc.parallelize(Array(("abc",2),("efg",4))).toDF()
df.show()
/*-------------show -----------
+---+---+
| _1| _2|
+---+---+
|abc|  2|
|efg|  4|
+---+---+
*/

//接下來不一樣了
val df2Array:Array[Tuple2[String,Int]] = df.collect().map{case org.apache.spark.sql.Row(x:String,y:Int) => (x,y)}

val jsonData:Array[JSONObject] = aM.map{ i =>
  new JSONObject(Map(i._1 -> i._2))
}

val jsonArray:JSONArray = new JSONArray(jsonData.toList)
/*-----------jsonArray------------
[{"abc" : 2}, {"efg" : 4}]
*/

大概說明一下上述的代碼,首先我們要先將 df 變數進行 collect 操作,將它轉換成 Array ,但是要生成 jsonObject 得是 Array[Tuple2[T,T]] 的格式,所以我們需要再進一步轉換成對應格式。這裡的 map 是函數式編程裡面的 map 。

然後也是用 map 操作生成 Array[JSONObject],最後再轉換成 JSONArray 就可以。

將數據轉換成 json 的格式通常不能太大,一般用在 spark 跑出數據結果後寫入到其他資料庫的時候會用到,比如 Mysql 。

以上~~


歡迎關註公眾號哈爾的數據城堡,裡面有數據,代碼,以及深度的思考。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 需求:外部人員需要對公司伺服器上某個文件夾內容進行讀寫操作 文件目錄信息:/opt/abc drwxr-xr-x 9 www www 4096 12月 4 13:02 abc #註意最初abc的www用戶組沒有寫許可權 為了後面的ftp用戶能夠對此文件具備寫操作,需要添加www用戶組的寫許可權: chm ...
  • 工欲善其事,必先利其器。作為一款強大的開源軟體,Zabbix號稱“Monitor Everything”,其所依賴的,很大程度上便是SNMP的數據採集支持。SNMP 協議是用來管理設備的協議,目前SNMP已成為網路管理領域中事實上的工業標準,並被廣泛支持和應用,大多數網路管理系統和平臺都是基於SNM ...
  • 1. 測試環境 Ubuntu 16.04 x64、ROS Kinetic、Velodyne VLP 16、RoboWare Studio 2. 安裝 ROS 功能包 3. 連接激光雷達 網線直連本機與激光雷達,已知 Velodyne VLP 16 的 IP 地址為 192.168.1.201,配置本 ...
  • 添加Zabbix存儲庫安裝存儲庫配置包。 該軟體包包含yum(軟體包管理器)配置文件。 前端安裝先決條件Zabbix前端需要額外的基本安裝包。 您需要在將運行Zabbix前端的系統中啟用可選rpms的存儲庫: 伺服器/代理/前端安裝要在MySQL支持下安裝Zabbix伺服器(適用於RHEL 7,在R ...
  • Linux系統中的wc(Word Count)命令的功能為統計指定文件中的位元組數、字數、行數,並將統計結果顯示輸出。 一.命令格式 wc [ clw][ help][ version][文件...] 二.命令功能 利用wc指令我們可以計算文件的Byte數、字數、或是列數,若不指定文件名稱、或是所給予 ...
  • 截至寫這篇博客為止,MariaDB官方的穩定版本為,詳情訪問官方地址:https://downloads.mariadb.org/ 安裝之前先簡單說一下MariaDB: MariaDB由MySQL的創始人麥克爾·維德紐斯主導開發,他早前曾以10億美元的價格,將自己創建的公司MySQL賣給了SUN,此 ...
  • 個人原創,轉載請在文章頭部明顯位置註明出處:https://www.cnblogs.com/sunshine5683/p/10080102.html 在上一篇進階中大概講解了一些關於進階方面的知識,今天就將進階內容做個總結! 一、OracleServer實例DB的概念: 1、Oracle關係資料庫管 ...
  • 1. 下載版本,官網:https://dev.mysql.com/downloads/mysql/ 2. 解壓 3. mysql-5.7.24-winx64目錄下創建一個名為data的空文件夾、創建一個my.ini的文件放在bin目錄裡面(不要放在mysql文件夾下),內容: [mysql] # 設 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...