SQL視窗分析函數使用詳解系列三之偏移量類視窗函數

来源:https://www.cnblogs.com/lubians/p/18160720
-Advertisement-
Play Games

1.綜述 本文以HiveSQL語法進行代碼演示。 對於其他資料庫來說同樣也適用,比如SparkSQL,FlinkSQL以及Mysql8,Oracle,SqlServer等傳統的關係型資料庫。 已更新第一類聚合函數類,點擊這裡閱讀 ①SQL視窗函數系列一之聚合函數類 ②SQL視窗函數系列二之分組排序窗 ...


1.綜述

本文以HiveSQL語法進行代碼演示。

對於其他資料庫來說同樣也適用,比如SparkSQL,FlinkSQL以及Mysql8,Oracle,SqlServer等傳統的關係型資料庫。

已更新第一類聚合函數類,點擊這裡閱讀 ①SQL視窗函數系列一之聚合函數類

SQL視窗函數系列二之分組排序視窗函數

本節介紹Hive視窗分析函數中的第三類視窗函數:偏移量類視窗函數。

在實際的應用場景中,顧名思義,偏移量分析函數主要應用於求解和指定偏移數據的差值。例如和上一行數據差值,和下一行數據差值。

有什麼實際意義呢?例如,每行數據是天粒度的,那麼上下行的差值計算就是前後天的數據增長量或者減少量,比left join,right join的方式更為簡單,效率更高。

1.1 偏移量類視窗函數

lead() over();
lag() over();
first_value() over();

1.2 視窗函數語法

分析函數 over(partition by 列名 order by 列名 rows between 開始位置 and 結束位置)

具體解析

over()括弧內為空時,是直接進行計算。

其中partition by 列名 是按指定列進行分組,進而進行計算。

最後的order by 列名 是按照指定列進行排序,進而進行計算。

1.3 基礎數據準備

create table if not exists temp.user_info (
  `id` bigint comment '用戶id',
  `client` string comment '客戶端',
  `gender` int comment '性別,0女1男',
  `constellation` string comment '星座',
  `age` int comment '年齡',
  `pv` bigint comment '訪問量',
  `chat_num` bigint comment '聊天次數'
) comment '用戶信息測試臨時表' 

數據預覽

id client gender constellation age pv chat_num
1 ios 0 處女座 29 174 3
2 ios 1 雙魚座 26 263 2
3 android 1 雙魚座 35 232 39
4 ios 1 水瓶座 32 57 3
5 ios 1 射手座 33 67 6
6 ios 1 雙子座 36 81 5
7 ios 1 獅子座 29 68 4
8 ios 1 獅子座 28 19 3
9 ios 0 射手座 32 479 2
10 ios 1 白羊座 26 255 36

2.各偏移量函數的使用

2.1 lag

  • 功能

Lag函數用於獲取指定列的前n(取決於偏移量的設置)個行的值,按照我們設定的分區以及排序規則。

  • 語法
lag(column_name, offset, default_value) over (partition by partition_col order by order_col)

column_name要查詢的列名

offset 要查找的偏移量,即要獲取的行數的偏移量,預設為1,例如往前1行或者n行。

default_value 一個可選的預設值(當沒有找到前一個行時返回的值

  • 示例

按客戶端分組,按id排序,取出上一行的年齡。

select id,client,age,lag(age,1,10) over(partition by client order by id) as lag_1_age from temp.user_info
where id <= 10
order by id;

數據結果

id client age lag_1_age
1 ios 29 10
2 ios 26 29
3 android 35 10
4 ios 32 26
5 ios 33 32
6 ios 36 33
7 ios 29 36
8 ios 28 29
9 ios 32 28
10 ios 26 32

可以看到id為1的用戶沒有上一行,所以取到的值為我設置的預設值10.如果不設置預設值,返回null

Id 為2的用戶渠道的偏移值是id為1的用戶的年齡。

  • 拓展使用

偏移量最常見的使用是當數據最細粒度為天粒度時,查詢該用戶的前一天行為和今天行為的差值或者相比上一日上漲或者下降百分比等。偽SQL

-- 這裡省略了偏移量和預設值
select id,pv,dt,pv-lag_pv as gap_pv  -- 當日和上一日的pv差值 
from (
		select id,pv,dt,lag(pv) over(partition by id order by dt) as lag_pv from temp.user_pv_info
) a

2.2 lead

  • 功能

和lag類似,卻剛好相反。是取向下的偏移量的值。進而進行差值計算等。

用於獲取指定列的後n(取決於偏移量的設置)個行的值,按照我們設定的分區以及排序規則。

  • 語法
lead(column_name, offset, default_value) over (partition by partition_col order by order_col)

column_name要查詢的列名

offset 要查找的偏移量,即要獲取的行數的偏移量,預設為1,例如往前1行或者n行。

default_value 一個可選的預設值(當沒有找到前一個行時返回的值)

  • 示例

按客戶端分組,按id排序,取出下二行的年齡。

select id,client,age,lead(age,2,10) over(partition by client order by id) as lead_2_age from temp.user_info
where id <= 10
order by id;

數據結果

id client age lead_2_age
1 ios 29 32
2 ios 26 33
3 android 35 10
4 ios 32 36
5 ios 33 29
6 ios 36 28
7 ios 29 32
8 ios 28 26
9 ios 32 10
10 ios 26 10

如上,我把偏移量設置為2,可以看到id為9和10的向下兩行沒有數據。

  • 拓展使用

和lag使用場景一致,很多場景lag和lead都可以互換,需要設置排序是正序或者倒序的區別。

2.3 first_value

  • 功能

first_value用於返回分組中的第一個值,按指定的排序列。我們在使用中可以根據特定的排序規則來確定和查詢獲取每個分組的第一個值

  • 語法
first_value(expression) over(
	[partition by 列名1,列名2]
  [order by 列名3,列名4]
)

expression要獲取第一個值的列或者表達式

partition by 用於指定分組的列

order by 用於指定排序的列

  • 示例

查詢不同客戶端,年齡最小的用戶。

select id,client,age,first_value(age) over(partition by client order by age) as min_age from temp.user_info
where id <= 10
order by id;

數據結果

id client age min_age
1 ios 29 26
2 ios 26 26
3 android 35 35
4 ios 32 26
5 ios 33 26
6 ios 36 26
7 ios 29 26
8 ios 28 26
9 ios 32 26
10 ios 26 26

可以看到當前ios客戶端的最小年齡為26,android客戶端最小年齡為35.

  • 拓展使用

這樣查有什麼用呢?

例如可以進一步求解當前用戶年齡和最小年齡或者最大年齡的差值。

如果是其他例如銷售數據,或者活躍數據等,就更加有實用意義了。

總之,SQL視窗分析函數能夠支持我們在更多的場景直接進行數據處理,進而更加深入和高效的進行數據分析

以上,關於SQL視窗函數的三類就更完了。後續更多以SQL每日一題的方式體現。

感謝閱讀。

下一期:還沒想好。

按例,歡迎點擊此處關註我的個人公眾號,交流更多知識。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 題目: ​ 輸入一個包括 '(' 和 ')' 的字元串string ,判斷字元串是否有效。要求設計演算法實現檢查字元串是否有效,有效的字元串需滿足以下條件: A. 左括弧必須用相同類型的右括弧閉合。 B. 左括弧必須以正確的順序閉合。 C. 每個右括弧都有一個對應的相同類型的左括弧。 題目分析: ​ ...
  • Nginx預設安裝只支持代理HTTP, 不支持代理 HTTPS, 如果需要支持HTTPS需要在Nginx編譯時加入 ngx_http_proxy_connect_module. ...
  • 數據結構 雙向迴圈鏈表 雙向迴圈鏈表的增刪改查 /***************************************************************************************************************** * * file na ...
  • 題目: ​ 設計一個進位轉換程式,使用順序棧設計一個把十進位數轉換為十六進位數的介面,實現當通過鍵盤輸入一個非負的十進位數,可以在終端輸出對應的十六進位數。 例如: 100 --> 0x64 --> 100%16 = 4 --> 100/16 = 6 6%16 = 6 題目分析: ​ 該題需要對用戶 ...
  • 棧(stack) 原理說明: ​ 學習數據結構的目的是為了更好的處理和存儲數據,對於順序表而言改查比較容易,增刪比較麻煩,對於鏈式表而言,增刪比較簡單,改查比較麻煩,所以每種數據結構都有不同的特點,用戶需要選擇合適的數據結構。 ​ 棧記憶體自頂向下進行遞增,其實棧和順序表以及鏈式表都一樣,都屬於線性結 ...
  • Kafka通過一系列機制來確保數據不丟失,這些機制涵蓋了生產者、Broker和消費者等關鍵環節。以下是Kafka保證數據不丟失的主要方式: 生產者生產數據不丟失: 同步方式:生產者發送數據給Kafka後,會等待Kafka的確認。如果在一定時間內(如10秒)沒有收到Broker的ack響應,生產者會認 ...
  • 聲明: 以下內容為個人筆記,內容不完全正確,請謹慎參考。 文本處理工具 cut: cut 工作是“剪”,具體來說就是在文件中負責剪切數據。cut 命令從文件的每個行剪切位元組、字元和欄位輸出。 1、基本語法: cut [選項參數] filename 說明:預設分隔符是副表符 2、選項參數說明 選項參數 ...
  • 雙向迴圈鏈表 原理與應用 雙向迴圈鏈表與雙向鏈表的區別:指的是雙向迴圈鏈表的首結點中的prev指針成員指向鏈表的尾結點,並且雙向迴圈鏈表的尾結點里的next指針成員指向鏈表的首結點,所以雙向迴圈鏈表也屬於環形結構。 雙向迴圈鏈表各功能實現 (1)為了管理雙向迴圈鏈表,需要構造頭結點的數據類型以及構造 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...