Hive解析多重嵌套JSON數組

来源:https://www.cnblogs.com/harrylyx/archive/2020/05/29/12986284.html
-Advertisement-
Play Games

最近在工作中遇到一個很難解析的JSON,他是一個嵌套的JSON數組的JSON,要使用Hive來進行解析,用Presto寫了一次,邏輯就很清晰,因為Presto自帶了JSON數據類型,轉換數組就很方便,而Hive解析完JSON數組後是一個字元串,只能使用split方法來對string類型的數據進行切分 ...


最近在工作中遇到一個很難解析的JSON,他是一個嵌套的JSON數組的JSON,要使用Hive來進行解析,用Presto寫了一次,邏輯就很清晰,因為Presto自帶了JSON數據類型,轉換數組就很方便,而Hive解析完JSON數組後是一個字元串,只能使用split方法來對string類型的數據進行切分,所以如果遇到多層嵌套的數組,要註意切分方法,不然就會亂套。

需要解析的JSON

{
	"base": {
		"code": "xm",
		"name": "project"
	},
	"list": [{
		"ACode": "cp1",
		"AName": "Product1",
		"BList": [{
			"BCode": "gn1",
			"BName": "Feature1"
		}, {
			"BCode": "gn2",
			"BName": "Feature2"
		}]
	}, {
		"ACode": "cp2",
		"AName": "Product2",
		"BList": [{
			"BCode": "gn1",
			"BName": "Feature1"
		}]
	}]
}

解析出來的結果應該如下表所示

code name ACode Aname Bcode Bname
xm project cp1 Product1 gn1 Feature1
xm project cp1 Product1 gn2 Feature2
xm project cp2 Product2 gn1 Feature1

解決方案

首先使用get_json_object方法,把需要解析的數組解析出來,然後使用regexp_replace}]},{替換成}]}||{,然後再使用split方法對||進行分割,分割成數組後,使用lateral view explode方法對其進行展開成多列即刻。

SELECT
    code
  , name
  , ai.ACode
  , ai.AName
  , bi.BCode
  , bi.BName
FROM
    (
        SELECT
            get_json_object(t.value, '$.base.code') AS code
          , get_json_object(t.value, '$.base.name') AS name
          , get_json_object(t.value, '$.list')      AS list
        FROM
            (
                SELECT
                    '{"base":{"code":"xm","name":"project"},"list":[{"ACode":"cp1","AName":"Product1","BList":[{"BCode":"gn1","BName":"Feature1"},{"BCode":"gn2","BName":"Feature2"}]},{"ACode":"cp2","AName":"Product2","BList":[{"BCode":"gn1","BName":"Feature1"}]}]}' as value
            )
            t
    )
    t lateral view explode(split(regexp_replace(regexp_extract(list,'^\\[(.+)\\]$',1),'\\}\\]\\}\\,\\{', '\\}\\]\\}\\|\\|\\{'),'\\|\\|')) list as a 
	lateral view json_tuple(a,'ACode','AName','BList') ai as ACode
    , AName
    , BList lateral view explode(split(regexp_replace(regexp_extract(BList,'^\\[(.+)\\]$',1),'\\}\\,\\{', '\\}\\|\\|\\{'),'\\|\\|')) BList as b 
    lateral view json_tuple(b,'BCode','BName') bi as BCode
    , BName
;

執行完

xm	project	cp1	Product1	gn1	Feature1
xm	project	cp1	Product1	gn2	Feature2
xm	project	cp2	Product2	gn1	Feature1
Time taken: 0.787 seconds, Fetched: 3 row(s)

hive

總結

  1. 嘗試切分為數組後,使用lateral view posexplode方案,逐層解析,但這樣會導致笛卡爾。所以必須一次性全部解析好,而不是套用多個子查詢逐層解析;
  2. 使用OUTER欄位,能使LATERAL VIEW不忽略NULL

include OUTER in the query to get rows with NULL values

something like,

select *  FROM table LATERAL VIEW OUTER explode (  split (  email  ,','  ) ) email AS email_id;

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、環境準備,安裝sqlite3軟體 sudo apt-get install sqlite3 2、編寫sql執行腳本(更新操作),每條sql語句以分號結束,sql.sql文件內容: ALTER TABLE "GameDeviceInfo" ADD "Delay" INTEGER NOT NULL ...
  • https://blog.csdn.net/youngbit007/article/details/54288603 groupbyimport pandas as pddf = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','on ...
  • 原文地址:https://mysqlserverteam.com/mysql-explain-analyze/ MySQL 8.0.18剛剛發佈(譯者註:原文發表時間為October 17, 2019),它包含了一個全新的特性來分析和理解查詢是如何執行的:explain analyze。 expla ...
  • 桔妹導讀:在各大互聯網公司都提倡數據驅動的今天,AB實驗是我們進行決策分析的一個重要利器。一次實驗過程會包含多個環節,今天主要給大家分享滴滴實驗平臺在分組環節推出的一種提升分組均勻性的新方法。本文首先會介紹一下滴滴AB實驗的相關情況,以及在實驗分組環節中遇到的問題。然後介紹目前在實驗對象分組方面的通 ...
  • 需求: 1.提供一個index.html頁面,頁面中有個省份,下拉列表2.當頁面載入完成時,發送ajax請求。載入所有省份 前期項目初步搭建: index.html $(function(){ $.get("url",{},funtion(data){ //url-查詢servlet路徑,{}不要參 ...
  • (1)查詢學生的基本信息; select * from S; (2)查詢“CS”系學生的基本信息; select * from S where Sdept =’CS’; (3)查詢“CS”系學生年齡不在19到21之間的學生的學號、姓名; select Sno, Sname from S where ...
  • 1、問題描述: 今天突然PHP同事給我說預發佈的mongo掛了,我上去看了一下日誌顯示: 原因: 同事說他建了個索引,然後mongo就掛了,由於mongodb的重建索引的時候,吃掉所有記憶體,導致mongodb進程被殺掉。 2、解決方法: 方法一:要麼增加伺服器記憶體 方法二:要麼刪除一些索引,開啟服務 ...
  • 資料庫之Oracle優化技巧(一) 1.where子句中的連接順序 在Oracle資料庫中,where子句的執行順序是自下而上進行解析,根據這個原理,表之間的連接必須寫在其他where條件之前,那些可以過濾掉最大數量記錄的條件必 須寫在where子句的末尾。 2.select子句中避免使用 ‘ * ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...