SQLServer中利用NTILE函數對數據進行分組的一點使用

来源:http://www.cnblogs.com/wy123/archive/2017/05/26/6908377.html
-Advertisement-
Play Games

本文出處:http://www.cnblogs.com/wy123/p/6908377.html NTILE函數可以按照指定的排序規則,對數據按照指定的組數(M個對象,按照某種排序分N個組)進行分組,可以展現出某一條數據被分配在哪個組中. 不僅可以單單利用這個特性,還可以藉助該特實現更加有意思的功能 ...


本文出處:http://www.cnblogs.com/wy123/p/6908377.html 

 

  NTILE函數可以按照指定的排序規則,對數據按照指定的組數(M個對象,按照某種排序分N個組)進行分組,可以展現出某一條數據被分配在哪個組中.
  不僅可以單單利用這個特性,還可以藉助該特實現更加有意思的功能.
  

NTILE的基本使用

  NTILE的作用是對數據進行整體上的分組,比如有60個學生,按照成績分成“上中下”三個級別,可以看出那些人位於哪個級別,用NTILE函數就可以實現。
  比如這裡的簡單的示例,有六個學生,按照成績,分成三組,可以看到,每個人位於哪一組中(或者說哪個人位於哪個層次)

當然也可以分成兩組,分組和排序方式由NTILE (N)OVER(ORDER BY *** ASC | DESC) 決定

 

在NTILE的分組功能上擴展

當然這個應用還可以擴展,藉助其擴展功能,可以完成很多個性化的需求。
最近遇到一個需求,要處理一批歷史數據,目的是根據其Id,經過一系列的邏輯運算(存儲過程實現),計算生成這個Id的某些屬性,
正常情況下是迴圈表中的每一行數據,分別傳入存儲過程進行處理。
/*
DECLARE @id INT = 0
DECLARE @achived bit = 1
while @achived>0
begin
  select top 1 @id = id from business_table order by id
  insert into deal_result
  exec deal_procrdure @id

  delete from t where business_table = @id

if exists (select 1 from t)
  set @achived = 1
else
  set @achived = 0
end
*/

但是考慮到business_table的數據量太大,單個Session運算起來可能要花費太久的時間,
因此要考慮使用多個Session,每個Session分別計算一部分數據,這樣就可以加快數據的生成效率。

比如有1000W行數據,使用10個Session,每個Session計算100W行,這樣比一個Session計算1000W行數據,理論上要快10倍
那麼這裡就涉及到一個分組的問題,鑒於數據的特點,其Id是唯一的但不連續的,
比如要分成10組,如何通過Id的範圍,確保每組的數據量基本上相同?

 

一開始是採用比較笨的方法,利用top,比如前100W行數據,可以這樣
select max(id) from
(
  select top 100W from t
)t
通過這樣,如果最大的id為Id1,那麼前100W行的數據範圍為0~Id1。

對於第二個100W行的數據,可以計算前200W行的max(id)
select max(id) from
(
  select top 200W from t
)t
如果最大的id為Id2,那麼第二個100W行的數據範圍為Id1~Id2。

 

然後依次類推,是有點笨……

 

  類似需求可以通過上面提到的NTILE分析函數實現
  先上個實例代碼,模擬上文提到的Business_table Id唯一但是不連續的情況

DECLARE @i INT = 0
WHILE @i<200000
BEGIN
    INSERT INTO TestNtile VALUES (@i,NEWID())
    set @i=@i+1
END
GO

--隨機刪除部分數據,模擬Id不是連續的
;WITH del
AS
(
    select top 100 * from TestNtile order by NEWID()
)
DELETE FROM del    
GO

--通過NTILE分成十個組,取每個組的最大值
SELECT GroupId,MAX(Id) AS Id
FROM 
(
    select NTILE (10)over(order by Id) as GroupId,Id  
    from TestNtile  
)t
GROUP BY GroupId
GO


  原理正如備註中的寫的,利用NTILE函數,對數據整體上分成10組,取每個組的最大值,就可以確定每個組的Id的區間範圍了。
  參考下圖,將測試數據分成10組,分別取得每個組的最大Id值,就可以確定每個組的Id的範圍了。

  這樣就很容易確定,第一組的Id的範圍是0~20215,第二組的範圍是20216~40406,第三組的範圍是40406~60572……
  計算出來範圍之後,可以通過啟動多個Session來迴圈計算,或者是交給多線程,讓每個線程處理某個範圍內的Id

 

很基礎的問題,就不總結了。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • android手機上的很多應用程式啟動時都會先顯示一個圖片,作為該應用程式的開始,該圖片轉瞬即逝。這個圖片一般都會用應用的圖標,作為廣告來用。 例如: 它的實現方式很簡單,我們以一個測試APP為例,介紹它的實現。 這個圖片其實用的是一個Activity,對於該APP來說是AppStart這個Acti ...
  • 現在很多的APP都很喜歡圓形的頭像,這裡就簡單的寫個圓形的ImageView~ 第三方圓形ImageView控制項: RoundedImageView CircleImageView 實現代碼: 自定義ImageView:RoundImageView.java 佈局代碼:activity_main.x ...
  • 如果你對於什麼是Cordova還不瞭解,可以先移步到我另一個文章:Cordoval在iOS中的運用整理 裡面有詳細的介紹跟如何搭建Cordova;而本文則是要介紹JiaCordova插件,如果你有一點Cordova就可以快速集成到項目中; 一:JiaCordova介紹 JiaCordova是為了讓項 ...
  • 一,工程圖。 二,代碼。 RootViewController.h RootViewController.m ...
  • 這裡並沒有前情回顧 NULL值操作 Null是一個特殊的值,它表示著“沒有值”或者“未知值”,記住它是一個與眾不同的值。 為了測試NULL,不能用算數比較操作符 不信你試試 操作如下: SELECT 1 = NULL, 1 <> NULL, 1 < NULL, 1 > NULL; mysql> SE ...
  • 日期計算 MySQL提供了幾個函數, 可以用來計算日期。巴拉拉拉。。。。 舉個例子:我想要確定pet們有多大, 可以計算當前日期的年和出生日期之間的差。 操作如下: SELECT name, birth, YEAR(CURRENT_DATE()) - YEAR(birth) AS age FROM ...
  • MYSQL 資料庫備份有很多種(cp、tar、lvm2、mysqldump、xtarbackup)等等,具體使用哪一個還要看你的數據規模。下麵給出一個表 #摘自《學會用各種姿態備份Mysql資料庫》 當然了本篇文章只講mysqldump【官方文檔】,其他方式有機會可以給大家分享。在用mysqldum ...
  • 最近寫完mysql flashback,突然發現還有有這種使用場景:有些情況下,可能會統計在某個時間段內,MySQL修改了多少數據量?發生了多少事務?主要是哪些表格發生變動?變動的數量是怎麼樣的? 但是卻不需要行記錄的修改內容,只需要瞭解 行數據的 變動情況。故也整理了下。 昨晚寫的腳本,因為個人p ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...