Hive解析多重嵌套JSON數組

来源:https://www.cnblogs.com/harrylyx/archive/2020/05/29/12986284.html
-Advertisement-
Play Games

最近在工作中遇到一個很難解析的JSON,他是一個嵌套的JSON數組的JSON,要使用Hive來進行解析,用Presto寫了一次,邏輯就很清晰,因為Presto自帶了JSON數據類型,轉換數組就很方便,而Hive解析完JSON數組後是一個字元串,只能使用split方法來對string類型的數據進行切分 ...


最近在工作中遇到一個很難解析的JSON,他是一個嵌套的JSON數組的JSON,要使用Hive來進行解析,用Presto寫了一次,邏輯就很清晰,因為Presto自帶了JSON數據類型,轉換數組就很方便,而Hive解析完JSON數組後是一個字元串,只能使用split方法來對string類型的數據進行切分,所以如果遇到多層嵌套的數組,要註意切分方法,不然就會亂套。

需要解析的JSON

{
	"base": {
		"code": "xm",
		"name": "project"
	},
	"list": [{
		"ACode": "cp1",
		"AName": "Product1",
		"BList": [{
			"BCode": "gn1",
			"BName": "Feature1"
		}, {
			"BCode": "gn2",
			"BName": "Feature2"
		}]
	}, {
		"ACode": "cp2",
		"AName": "Product2",
		"BList": [{
			"BCode": "gn1",
			"BName": "Feature1"
		}]
	}]
}

解析出來的結果應該如下表所示

code name ACode Aname Bcode Bname
xm project cp1 Product1 gn1 Feature1
xm project cp1 Product1 gn2 Feature2
xm project cp2 Product2 gn1 Feature1

解決方案

首先使用get_json_object方法,把需要解析的數組解析出來,然後使用regexp_replace}]},{替換成}]}||{,然後再使用split方法對||進行分割,分割成數組後,使用lateral view explode方法對其進行展開成多列即刻。

SELECT
    code
  , name
  , ai.ACode
  , ai.AName
  , bi.BCode
  , bi.BName
FROM
    (
        SELECT
            get_json_object(t.value, '$.base.code') AS code
          , get_json_object(t.value, '$.base.name') AS name
          , get_json_object(t.value, '$.list')      AS list
        FROM
            (
                SELECT
                    '{"base":{"code":"xm","name":"project"},"list":[{"ACode":"cp1","AName":"Product1","BList":[{"BCode":"gn1","BName":"Feature1"},{"BCode":"gn2","BName":"Feature2"}]},{"ACode":"cp2","AName":"Product2","BList":[{"BCode":"gn1","BName":"Feature1"}]}]}' as value
            )
            t
    )
    t lateral view explode(split(regexp_replace(regexp_extract(list,'^\\[(.+)\\]$',1),'\\}\\]\\}\\,\\{', '\\}\\]\\}\\|\\|\\{'),'\\|\\|')) list as a 
	lateral view json_tuple(a,'ACode','AName','BList') ai as ACode
    , AName
    , BList lateral view explode(split(regexp_replace(regexp_extract(BList,'^\\[(.+)\\]$',1),'\\}\\,\\{', '\\}\\|\\|\\{'),'\\|\\|')) BList as b 
    lateral view json_tuple(b,'BCode','BName') bi as BCode
    , BName
;

執行完

xm	project	cp1	Product1	gn1	Feature1
xm	project	cp1	Product1	gn2	Feature2
xm	project	cp2	Product2	gn1	Feature1
Time taken: 0.787 seconds, Fetched: 3 row(s)

hive

總結

  1. 嘗試切分為數組後,使用lateral view posexplode方案,逐層解析,但這樣會導致笛卡爾。所以必須一次性全部解析好,而不是套用多個子查詢逐層解析;
  2. 使用OUTER欄位,能使LATERAL VIEW不忽略NULL

include OUTER in the query to get rows with NULL values

something like,

select *  FROM table LATERAL VIEW OUTER explode (  split (  email  ,','  ) ) email AS email_id;

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、環境準備,安裝sqlite3軟體 sudo apt-get install sqlite3 2、編寫sql執行腳本(更新操作),每條sql語句以分號結束,sql.sql文件內容: ALTER TABLE "GameDeviceInfo" ADD "Delay" INTEGER NOT NULL ...
  • https://blog.csdn.net/youngbit007/article/details/54288603 groupbyimport pandas as pddf = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','on ...
  • 原文地址:https://mysqlserverteam.com/mysql-explain-analyze/ MySQL 8.0.18剛剛發佈(譯者註:原文發表時間為October 17, 2019),它包含了一個全新的特性來分析和理解查詢是如何執行的:explain analyze。 expla ...
  • 桔妹導讀:在各大互聯網公司都提倡數據驅動的今天,AB實驗是我們進行決策分析的一個重要利器。一次實驗過程會包含多個環節,今天主要給大家分享滴滴實驗平臺在分組環節推出的一種提升分組均勻性的新方法。本文首先會介紹一下滴滴AB實驗的相關情況,以及在實驗分組環節中遇到的問題。然後介紹目前在實驗對象分組方面的通 ...
  • 需求: 1.提供一個index.html頁面,頁面中有個省份,下拉列表2.當頁面載入完成時,發送ajax請求。載入所有省份 前期項目初步搭建: index.html $(function(){ $.get("url",{},funtion(data){ //url-查詢servlet路徑,{}不要參 ...
  • (1)查詢學生的基本信息; select * from S; (2)查詢“CS”系學生的基本信息; select * from S where Sdept =’CS’; (3)查詢“CS”系學生年齡不在19到21之間的學生的學號、姓名; select Sno, Sname from S where ...
  • 1、問題描述: 今天突然PHP同事給我說預發佈的mongo掛了,我上去看了一下日誌顯示: 原因: 同事說他建了個索引,然後mongo就掛了,由於mongodb的重建索引的時候,吃掉所有記憶體,導致mongodb進程被殺掉。 2、解決方法: 方法一:要麼增加伺服器記憶體 方法二:要麼刪除一些索引,開啟服務 ...
  • 資料庫之Oracle優化技巧(一) 1.where子句中的連接順序 在Oracle資料庫中,where子句的執行順序是自下而上進行解析,根據這個原理,表之間的連接必須寫在其他where條件之前,那些可以過濾掉最大數量記錄的條件必 須寫在where子句的末尾。 2.select子句中避免使用 ‘ * ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...