Hive sampling 語法之TABLESAMPLE用法理解

-Advertisement-

官網關於 "LanguageManual Sampling" 的教程，部分截圖如下，這裡主要分享對TABLESAMPLE(BUCKET 3 OUT OF 16 ON id)子句的理解官網中假設創建表時設置了即分成了32個文件（雖然這裡用的是bucket，為了避免混淆和方便理解下麵的解釋，個人 ...

官網關於LanguageManual Sampling的教程，部分截圖如下，這裡主要分享對TABLESAMPLE(BUCKET 3 OUT OF 16 ON id)子句的理解

官網中假設創建表時設置了 CLUSTERED BY(id) INTO 32 BUCKETS 即分成了32個文件（雖然這裡用的是bucket，為了避免混淆和方便理解下麵的解釋，個人傾向於用cluster或者叫簇來代替），那麼下麵這個子句

TABLESAMPLE(BUCKET 3 OUT OF 16 ON id)

在查詢中的意思是將cluster分成16個桶，然後取出第三個桶中的數據。32個文件分進16個桶，那就是每個桶有（32/16=）2 個cluster，怎麼分呢？第1個cluster分進第1個桶，第2個cluster分進第2個桶......第16個cluster分進第16個桶，第17個cluster分進第1個桶，以此類推。所以當取出第三個桶中的數據時，就會取出第3個簇（cluster）和第19簇（cluster）的數據。官網原話：

would pick out the 3rd and 19th clusters as each bucket would be composed of (32/16)=2 clusters.

那下麵這個怎麼理解呢？

TABLESAMPLE(BUCKET 3 OUT OF 64 ON id)

32個cluster分進64個桶，然後再抽出第三個桶中的數據。32/64=1/2，每個桶由1/2個cluster組成，同樣地，第1個cluster的前一半數據分進第1個桶，後一半數據分進第33個桶，第2個cluster的前一半數據分進第2個桶，後一半數據分進第34個桶，.....第32個cluster的前一半數據分進第32個桶，後一半數據分進第64個桶。所以這個子句會取出第3個桶中的數據，也就是第3個cluster中的前一半數據。官網原話：

would pick out half of the 3rd cluster as each bucket would be composed of (32/64)=1/2 of a cluster.

補充官網關於分桶表的DDL操作

LanguageManual DDL BucketedTables

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

設計模式 - 七大設計原則（三）- 迪米特法則與里氏替換原則

概述簡單介紹一下七大設計原則： 1. 開閉原則：是所有面向對象設計的核心，對擴展開放，對修改關閉 2. 依賴倒置原則：針對介面編程，依賴於抽象而不依賴於具體 3. 單一職責原則：一個介面只負責一件事情，只能有一個原因導致類變化 4. 介面隔離原則：使用多個專門的介面，而不是使用一個總介面 ...
設計模式模式（四）：建造者模式（生成器模式）

建造者模式主要解決問題：具備若幹成員，當其中一個成員發生變化，其它成員也隨著發生變化。這種複雜對象的生成需要使用建造者模式來生成。建造者設計模式的結構圖：來源：http://c.biancheng.net/view/1354.html 例子：街頭籃球角色創建模擬街頭籃球：中鋒、前鋒、後 ...
07.Django學習之model進階

一 QuerySet 可切片使用Python 的切片語法來限制記錄的數目。它等同於SQL 的和子句。不支持負的索引（例如）。通常，的切片返回一個新的 —— 它不會執行查詢。可迭代惰性查詢是惰性執行的 —— 創建不會帶來任何資料庫的訪問。你可以將過濾器保持一整天，直到需要求值 ...
程式結構設計理論(Android)

程式結構設計理論(Android) 作者：鄧能財 2019年9月24日個人簡介姓名：鄧能財年齡：26 畢業學校：東華理工大學院系：理學院專業：信息與計算科學郵箱：[email protected] [明德厚學，愛國榮校] 本文的PPT版、以及作為案例的App項目可以從這裡下載： "程式結 ...
看完你就知道的樂觀鎖和悲觀鎖

Java 鎖之樂觀鎖和悲觀鎖 [TOC] Java 按照鎖的實現分為樂觀鎖和悲觀鎖，樂觀鎖和悲觀鎖並不是一種真實存在的鎖，而是一種設計思想，樂觀鎖和悲觀鎖對於理解 Java 多線程和資料庫來說至關重要，那麼本篇文章就來詳細探討一下這兩種鎖的概念以及實現方式。悲觀鎖是一種悲觀思想，它總認為最壞的情 ...
括弧匹配（c語言實現）

" ⭐ 我的網站: www.mengyingjie.com ⭐ " 1要求編寫程式檢查該字元串的括弧是否成對出現，而且不能交叉出現。輸入：一個字元串，裡邊可能包含“()”、"{}"、“[]”三種括弧，“ ”結束輸出：成功：代表括弧成對出現並且嵌套正確失敗：未正確使用括弧字元。 2分析用 ...
嚴蔚敏數據結構源碼及習題解析

" ⭐ 我的網站: www.mengyingjie.com ⭐ " 嚴蔚敏數據結構源碼及習題解析習題解析未更新完整，以後更新內容已上傳到github,歡迎star和fork： "https://github.com/MengYingjie/YanWeimin DataStructure Sour ...
ZOJ 1095. Humble Numbers

如果一個數的所有質數因數都來自於 { 2, 3, 5, 7 } 這個集合，就把這個數字叫做“謙虛數”（Humber Number），現在給出一個數字 i （1 <= i <= 5842），要求輸出第 i 個 humber number。 ...