數倉性能調優：row_number() over(p)-rn=1性能瓶頸發現和改寫套路

-Advertisement-

本篇針對row_number() over(partition by order by) rn，並僅把rn列用於分類排序後篩選最大值的場景，分析了性能瓶頸的原因，並給出了兩種改進方案。 ...

本文分享自華為雲社區《GaussDB(DWS)性能調優：row_number() over(p)-rn=1性能瓶頸發現和改寫套路》，作者：Zawami 。

1、改寫場景

本套路應用於子查詢中含有row_number() over(partition by order by) rn，並僅把rn列用於分類排序後篩選最大值的場景。

2、性能分析

GaussDB中SQL語句的執行很多時候是流式的，即對每一條數據進行流水加工，各層運算元同時在執行，縮短執行耗時。

但是在一些場景下，需要先取得前一個運算元的全部結果集，然後才能夠進行下一步的加工；視窗函數就是其中的一種。

觀察執行計劃可以看到，SQL會在計算得到rn列後，再同本層查詢其它列進行關聯。由於存在視窗函數，必須先把51號運算元先執行完，然後才能進行關聯，造成性能瓶頸。

通過去視窗函數改寫，我們可以使得分類彙總同明細數據之間的關聯流水執行。

改寫前局部SQL

SELECT

PROD_EN_NAME,

PROD_LIFE_CYCLE_STATUS

FROM

(

SELECT

PROD_EN_NAME,

LIFE_CYCLE AS PROD_LIFE_CYCLE_STATUS,

DEL_FLAG,

ROW_NUMBER ( ) OVER ( PARTITION BY PROD_EN_NAME ORDER BY RUN_DATE DESC ) RN

FROM

DMISC.DM_DIM_INV_PROD_ATTRI_SNAP_D

WHERE

DATA_TYPE = 1



AND DEL_FLAG = 'N'

AND RUN_DATE <= CAST ( '2023-06-11' || ' 00:00:00' AS TIMESTAMP )

)

WHERE

RN = 1

改寫後局部SQL

WITH T AS (

SELECT

PROD_EN_NAME,

MAX ( LIFE_CYCLE ) AS PROD_LIFE_CYCLE_STATUS,

RUN_DATE

FROM

DMISC.DM_DIM_INV_PROD_ATTRI_SNAP_D

WHERE

DATA_TYPE = 1

AND DEL_FLAG = 'N'

AND RUN_DATE <= CAST ( '2023-06-11' || ' 00:00:00' AS TIMESTAMP )

GROUP BY

PROD_EN_NAME,

RUN_DATE

)

SELECT

PROD_EN_NAME,

PROD_LIFE_CYCLE_STATUS

FROM T

WHERE

(PROD_EN_NAME, RUN_DATE) IN (SELECT PROD_EN_NAME, MAX(RUN_DATE) FROM T GROUP BY PROD_EN_NAME)

改寫解析：這裡先把數據根據原SQL中row_number() over()的partition列和order列進行去重，由於原SQL未定義LIFE_CYCLE的排序方式，改寫既可以使用MAX也可以使用MIN函數來進行聚合。然後再對去重後的數據進行過濾，過濾條件顯然。

使用這種修改方法，修改前後的全量執行計劃已在附件中給出。

這種改寫方式解決了上層運算元等視窗函數的問題。我們發現，一些業務場景下對不涉及聚合的其它列，比如上面例子中的LIFE_CYCLE並不敏感，且還需要進行進一步聚合的，那麼對本層子查詢中的去重其實沒有硬性需求。可以進一步去除這層去重。

WITH T AS (

SELECT

PROD_EN_NAME,

LIFE_CYCLE AS PROD_LIFE_CYCLE_STATUS,

RUN_DATE

FROM

DMISC.DM_DIM_INV_PROD_ATTRI_SNAP_D

WHERE

DATA_TYPE = 1

AND DEL_FLAG = 'N'

AND RUN_DATE <= CAST ( '2023-06-11' || ' 00:00:00' AS TIMESTAMP )

)

SELECT

PROD_EN_NAME,

PROD_LIFE_CYCLE_STATUS

FROM T

WHERE

(PROD_EN_NAME, RUN_DATE) IN (SELECT PROD_EN_NAME, MAX(RUN_DATE) FROM T GROUP BY PROD_EN_NAME)

改寫後執行計劃如下：

可以看到，執行計劃中雖然51層運算元只快了200ms，但由於減少阻塞，1~7層運算元的執行時間縮短了，總體比原先快了約480ms。

附件：供應鏈-88-PLAN.txt
附件：供應鏈-88-改-PLAN.txt

點擊關註，第一時間瞭解華為雲新鮮技術~

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

2. Linux 軟體管理 002

3）搭建企業內部 Yum 倉庫利用 HTTPD 搭建企業內部私有倉庫。 [ 虛擬機演示：掛載一個新的 CD 光碟鏡像源 ] 1）CD 光碟鏡像源 // `scandisk` 掃描新加的磁碟 echo '- - -' > /sys/class/scsi_host/host0/scan echo ...
五、文件系統組成和基本操作

1、Linux文件系統結構 Linux：是一個單根倒樹狀的文件系統結構 Windows：是多根多樹狀的文件系統結構文件系統從根目錄開始，表示為一個單獨的 ‘ / ’ 字元文件命名大小寫敏感路徑以 ‘ / ’ 為分隔 2、 Linux重要目錄 /root：超級用戶root的家目錄（用戶文件預設存 ...
Linux 安裝MySQL

通過包管理器安裝 MySQL ubuntu安裝 MySQL 1、配置APT源 ubuntu自己的APT源裡面就有MySQL，以ubuntu2004為例，可以直接用相關源就行了，也可以導入MySQL的官方源。阿裡雲鏡像源地址：https://developer.aliyun.com/mirror/ ...
Proj4：改進LiteOS中物理記憶體分配演算法

Proj4：改進LiteOS中物理記憶體分配演算法實驗目的掌握LiteOS系統調用的自定義方法實驗環境 Ubantu和IMX6ULL mini 實驗內容（從代碼角度詳細描述實驗的步驟和過程）原先代碼: 1 /* 2 3 * Description : find suitable free bl ...
十二生肖狗年財運預測，你的財源滾滾來？

十二生肖狗年財運預測，你的財源滾滾來？今年是狗年，按照中國傳統文化，狗年是一個財運井噴的年份。那麼，哪些生肖在這個狗年裡會財源滾滾呢？我們可以利用數據挖掘工具，通過API介面來獲取數據，對於不同生肖在狗年中的財運進行分析預測。在本篇文章中，我們將使用挖數據平臺提供的API介面來獲取關於十二生肖狗 ...
深入理解 SQL UNION 運算符及其應用場景

SQL UNION運算符 SQL UNION運算符用於組合兩個或多個SELECT語句的結果集。每個UNION中的SELECT語句必須具有相同數量的列。列的數據類型也必須相似。每個SELECT語句中的列也必須按照相同的順序排列。 UNION語法 SELECT column_name(s) FRO ...
聊聊分散式 SQL 資料庫Doris(七)

LSM-Tree Doris的存儲結構是類似LSM-Tree設計的，因此很多方面都是通用的，先閱讀瞭解LSM相關的知識，再看Doris的底層存儲與讀取流程會清晰透徹很多，如下是幾個關鍵的設計: SSTable: Sorted Strings Table; 一般由一組數據block和一組元數據bloc ...
UData+StarRocks在京東物流的實踐

數據服務與數據分析場景是數據團隊在數據應用上兩個大的方向，行業內大家有可能會遇到很多問題，數據服務和數據分析系統也是無法統一，分析產生的數據結果往往是離線的，需要額外開發數據服務，無法快速轉化為線上服務賦能外部系統，使得分析和服務之間難以快速形成閉環。而且在以往數據加工過程中存儲往往只考慮了當時的需... ...