【趙強老師】在Spark SQL中讀取JSON文件

-Advertisement-

Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了一個編程抽象叫做DataFrame並且作為分散式SQL查詢引擎的作用。為什麼要學習Spark SQL？如果大家瞭解Hive的話，應該知道它是將Hive SQL轉換成MapReduce然後提交到集群上執行，大大簡化了編寫MapRedu ...

Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了一個編程抽象叫做DataFrame並且作為分散式SQL查詢引擎的作用。為什麼要學習Spark SQL？如果大家瞭解Hive的話，應該知道它是將Hive SQL轉換成MapReduce然後提交到集群上執行，大大簡化了編寫MapReduce的程式的複雜性，由於MapReduce這種計算模型執行效率比較慢。所以Spark SQL的應運而生，它是將Spark SQL轉換成RDD，然後提交到集群執行，執行效率非常快！同時Spark SQL也支持從Hive中讀取數據。 Spark SQL也能自動解析JSON數據集的Schema，讀取JSON數據集為DataFrame格式。讀取JSON數據集方法為SQLContext.read().json()。該方法將String格式的RDD或JSON文件轉換為DataFrame。需要註意的是，這裡的JSON文件不是常規的JSON格式。JSON文件每一行必須包含一個獨立的、自滿足有效的JSON對象。如果用多行描述一個JSON對象，會導致讀取出錯。

需要用到的測試數據：people.json

{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

定義路徑

val path ="/root/temp/people.json"

讀取Json文件，生成DataFrame：

val peopleDF = spark.read.json(path)

列印Schema結構信息

peopleDF.printSchema()

創建臨時視圖

peopleDF.createOrReplaceTempView("people")

執行查詢

spark.sql("SELECT name FROM people WHERE age=19").show

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

2.kubernetes的CNI網路插件-Flannel（運維技術交流群：926402931，歡迎大家一起來交流。）

[TOC] 1.集群架構 | 主機名 | 角色 | IP地址 | | : : | : : | : : | | hdss7 21.host.com | flannel | 10.4.7.21 | | hdss7 22.host.com | flannel | 10.4.7.22 | 部署方法以hdss ...
redis 實戰-redis 事務

redis 實戰-redis 事務 1.描述 redis 事務單獨的隔離操作：事務中的所有命令都會序列化、按順序執行。事務在執行過程中，不會被其他客戶端發送過來的命令請求所打斷。 redis 事務沒有隔離級別的概念：隊列中的命令沒有提交之前都不會實際的被執行，因為事務提交前任何指令都不會被實際執行， ...
資料庫隔離級別

資料庫隔離級別如果沒有隔離級別會出現的問題臟讀意思是讀取到了事務正在修改的數據，如果事務回滾，那麼拿到的數據就是錯誤的 | 時間 | 事務A | 事務B | | | | | | 1 | 開始事務 | | | 2 | 讀取quantity為5 | | | 3 | 修改quantity為4 | | ...
常用的MySQL優化操作

操作系統配優化執行計劃與鎖表查看 --查看連接信息以及連接執行的命令 SHOW PROCESSLIST --查看當前被鎖住的表 show OPEN TABLES where In_use > 0; --開啟會話級別的profile SET profiling=1 --查看所有的資料庫操作執行過程 ...
SQL Server 2012自動標識列值跳轉問題

在SQL Server 2012版本中，當重新啟動SQL Server實例時，表的身份值將被跳轉，而實際跳轉的值取決於身份列數據類型。如果是整數（int）數據類型，則跳轉值為1000；如果為大整數（bigint），則跳轉值為10000。從我們的應用程式角度來看，此增量不適用於所有業務案例，尤其是當... ...
sql自動化檢查和分析工具：soar和soar-web 安裝和使用體驗

為了研究一下sql自動化檢查和分析工具，是否有網上介紹的好用，我在本地進行soar 和 soar-web的安裝和使用。初步的實驗結果，總結如下： 1. 安裝相對來說較為麻煩，特別是soar-web的依賴包安裝，涉及到python pip相關組件的下載安裝。 2. 啟動soar-web會遇到一些奇怪 ...
MySQL進階篇(01)：基於多個維度，分析伺服器性能

本文源碼： "GitHub·點這裡" || "GitEE·點這裡" 一、伺服器性能簡介 1、性能定義伺服器性能優化是一項非常艱巨的任務，當然也是很難處理的問題，在寫這篇文章的時候，特意請教下運維大佬，硬體工程師，資料庫管理，單從自己的實際開發經驗來看，看待這個問題的角度起碼是不全面的。：在公司靠 ...
讀者來信 | 如果你家HBase集群Region太多請點進來看看，這個問題你可能會遇到

前言：《讀者來信》是HBase老店開設的一個問答專欄，旨在能為更多的小伙伴解決工作中常遇到的HBase相關的問題。老店會儘力幫大家解決這些問題或幫你發出求救貼，老店希望這會是一個互幫互助的小平臺。有問題請直接在老店後臺留言，有好的解決方案也請不要吝嗇，誠摯歡迎大家能在留言區積極探討解決方案，大膽發 ...