transform Vs Udf_ZenDei技術網路在線

transform Vs Udf

-Advertisement-

在鞋廠的第一個任務，拆表。需要把訂單表按照開始日期和結束日期拆分成多條記錄，挺新鮮的~ transform方式，使用到了python。（1）把hive表的數據傳入，通過python按照日期迴圈處理，返回多條記錄。（2）生成序列表，然後採用cross join的方式，在hive端生成多條記錄，再根 ...

在鞋廠的第一個任務，拆表。需要把訂單表按照開始日期和結束日期拆分成多條記錄，挺新鮮的~

transform方式，使用到了python。

（1）把hive表的數據傳入，通過python按照日期迴圈處理，返回多條記錄。

（2）生成序列表，然後採用cross join的方式，在hive端生成多條記錄，再根據日期和序列進行處理。

udf方式，更容易操作，我個人習慣使用Java。udf傳入開始日期和結束日期，返回時間範圍的數組。

再通過lateral view的方式處理。

另外，針對這個需求，對比了crossjoin的方式（用python先生成序列表）和udf：

（1）效率：序列表為1-100的情況，執行時間28分鐘，序列表1000情況，調度卡住；

udf計算日誌一個分區全量情況，執行時間20分鐘，剔除無效數據後，執行時間約4分鐘。

（2）udf不需要做寫操作，減少了存儲使用。

（3）使用udf，sql代碼量少，且具有通用性。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

SQL SERVER 一個SQL語句的執行順序

一個SQL 語句的執行順序 1、From (告訴程式來自哪張表如果是表表達式依舊是如此順序) 2、Where（條件篩選謂詞篩選） 3、Group by（分組） 4、Having（分組謂詞篩選） 5、Select (表達式) 6、表達式（開窗函數聚合函數等等） 7、Distinct( ...
mysql根據查詢結果更新多條數據（插入或更新）

mysql根據查詢結果更新多條數據（插入或更新） 1.1 前言 mysql根據查詢結果執行批量更新或插入時經常會遇到1093的錯誤問題。基本上批量插入或新增都會涉及到子查詢，mysql是建議不要對需要操作的表放入子查詢條件中的，因此我們儘量避免子查詢中涉及到需要操作的表，如果無法避免，則可以考慮用連 ...
Oracle 12c RAC 靜默安裝文檔

參考文檔： https://docs.oracle.com/en/database/oracle/oracle-database/12.2/cwlin/index.html https://docs.oracle.com/en/database/oracle/oracle-database/12.2 ...
Oracle 12c RAC 圖形化界面安裝文檔

參考文檔： https://docs.oracle.com/en/database/oracle/oracle-database/12.2/cwlin/index.html https://docs.oracle.com/en/database/oracle/oracle-database/12.2 ...
mysql 開發進階篇系列 23 應用層優化與查詢緩存

一.概述前面章節介紹了很多資料庫的優化措施，但在實際生產環境中，由於資料庫伺服器本身的性能局限，就必須要對前臺的應用來進行優化，使得前臺訪問資料庫的壓力能夠減到最小。 1. 使用連接池對於訪問資料庫來說，建立連接的代價比較昂貴，因為連接到資料庫伺服器需要經歷多個步驟如：建立物理通道,伺服器進行初 ...
SQL 常用的SQL 由淺入深

常用的SQL 由淺入深大致上回想一下自己常用的SQL，並做個記錄，目標是實現可以通過在此頁面查找到自己需要的SQL ,陸續補充有不足之處，請提醒改正首先我創建了兩個庫，每個庫兩張表.(工作的時候，每個公司最好有自己的資料庫模型，產品也可以看，模型工具一般用PD（power designer）什 ...
SQLSERVER 死鎖

select request_session_id spid, OBJECT_NAME(resource_associated_entity_id) tableName from sys.dm_tran_locks where resource_type='OBJECT' 然後kill 裡面的進程 ...
創建資料庫，數據表，約束整理

一、創建資料庫1.啟動服務（三種）開始--cmd--輸入net start mssqlserver 開始--運行--net start mssqlserver 開始--服務--找到SQLSERVER(MSSQLSERVER)--右鍵--啟動 2.打開ssms 3.登錄：windows身份驗證混合 ...