SparkSQL大數據實戰:揭開Join的神秘面紗

来源:https://www.cnblogs.com/163yun/archive/2018/06/01/9121530.html
-Advertisement-
Play Games

本文來自 網易雲社區 。 Join操作是資料庫和大數據計算中的高級特性,大多數場景都需要進行複雜的Join操作,本文從原理層面介紹了SparkSQL支持的常見Join演算法及其適用場景。 Join背景介紹 Join是資料庫查詢永遠繞不開的話題,傳統查詢SQL技術總體可以分為簡單操作(過濾操作-wher ...


本文來自 網易雲社區 。

 

Join操作是資料庫和大數據計算中的高級特性,大多數場景都需要進行複雜的Join操作,本文從原理層面介紹了SparkSQL支持的常見Join演算法及其適用場景。

Join背景介紹

Join是資料庫查詢永遠繞不開的話題,傳統查詢SQL技術總體可以分為簡單操作(過濾操作-where、排序操作-limit等),聚合操作-groupby以及Join操作等。其中Join操作是最複雜、代價最大的操作類型,也是OLAP場景中使用相對較多的操作。因此很有必要對其進行深入研究。

 

另外,從業務層面來講,用戶在數倉建設的時候也會涉及Join使用的問題。通常情況下,數據倉庫中的表一般會分為“低層次表”和“高層次表”。

 

所謂“低層次表”,就是數據源導入數倉之後直接生成的表,單表列值較少,一般可以明顯歸為維度表或事實表,表和表之間大多存在外健依賴,所以查詢起來會遇到大量Join運算,查詢效率很差。而“高層次表”是在“低層次表”的基礎上加工轉換而來,通常做法是使用SQL語句將需要Join的表預先進行合併形成“寬表”,在寬表上的查詢不需要執行大量Join,效率很高。但寬表缺點是數據會有大量冗餘,且相對生成較滯後,查詢結果可能並不及時。

 

為了獲得時效性更高的查詢結果,大多數場景都需要進行複雜的Join操作。Join操作之所以複雜,主要是通常情況下其時間空間複雜度高,且有很多演算法,在不同場景下需要選擇特定演算法才能獲得最好的優化效果。本文將介紹SparkSQL所支持的幾種常見的Join演算法及其適用場景。

Join常見分類以及基本實現機制

當前SparkSQL支持三種Join演算法:shuffle hash join、broadcast hash join以及sort merge join。其中前兩者歸根到底都屬於hash join,只不過在hash join之前需要先shuffle還是先broadcast。其實,hash join演算法來自於傳統資料庫,而shuffle和broadcast是大數據的皮(分散式),兩者一結合就成了大數據的演算法了。因此可以說,大數據的根就是傳統資料庫。既然hash join是“內核”,那就刨出來看看,看完把“皮”再分析一下。

hash join

先來看看這樣一條SQL語句:select * from order,item where item.id = order.i_id,很簡單一個Join節點,參與join的兩張表是item和order,join key分別是item.id以及order.i_id。現在假設這個Join採用的是hash join演算法,整個過程會經歷三步:

  1. 確定Build Table以及Probe Table:這個概念比較重要,Build Table使用join key構建Hash Table,而Probe Table使用join key進行探測,探測成功就可以join在一起。通常情況下,小表會作為Build Table,大表作為Probe Table。此事例中item為Build Table,order為Probe Table。
  2. 構建Hash Table:依次讀取Build Table(item)的數據,對於每一行數據根據join key(item.id)進行hash,hash到對應的Bucket,生成hash table中的一條記錄。數據緩存在記憶體中,如果記憶體放不下需要dump到外存。
  3. 探測:再依次掃描Probe Table(order)的數據,使用相同的hash函數映射Hash Table中的記錄,映射成功之後再檢查join條件(item.id = order.i_id),如果匹配成功就可以將兩者join在一起。

 

基本流程可以參考上圖,這裡有兩個小問題需要關註:

  1. hash join性能如何?很顯然,hash join基本都只掃描兩表一次,可以認為o(a+b),較之最極端的笛卡爾集運算a*b,不知甩了多少條街。
  2. 為什麼Build Table選擇小表?道理很簡單,因為構建的Hash Table最好能全部載入在記憶體,效率最高;這也決定了hash join演算法只適合至少一個小表的join場景,對於兩個大表的join場景並不適用。

上文說過,hash join是傳統資料庫中的單機join演算法,在分散式環境下需要經過一定的分散式改造,就是儘可能利用分散式計算資源進行並行化計算,提高總體效率。hash join分散式改造一般有兩種經典方案:

  1. broadcast hash join:將其中一張小表廣播分發到另一張大表所在的分區節點上,分別併發地與其上的分區記錄進行hash join。broadcast適用於小表很小,可以直接廣播的場景。
  2. shuffler hash join:一旦小表數據量較大,此時就不再適合進行廣播分發。這種情況下,可以根據join key相同必然分區相同的原理,將兩張表分別按照join key進行重新組織分區,這樣就可以將join分而治之,劃分為很多小join,充分利用集群資源並行化。

下麵分別進行詳細講解。

broadcast hash join

如下圖所示,broadcast hash join可以分為兩步:

  1. broadcast階段:將小表廣播分發到大表所在的所有主機。廣播演算法可以有很多,最簡單的是先發給driver,driver再統一分發給所有executor;要不就是基於BitTorrent的TorrentBroadcast。
  2. hash join階段:在每個executor上執行單機版hash join,小表映射,大表試探。

        3.SparkSQL規定broadcast hash join執行的基本條件為被廣播小表必須小於參數spark.sql.autoBroadcastJoinThreshold,預設為10M。

shuffle hash join

在大數據條件下如果一張表很小,執行join操作最優的選擇無疑是broadcast hash join,效率最高。但是一旦小表數據量增大,廣播所需記憶體、帶寬等資源必然就會太大,broadcast hash join就不再是最優方案。此時可以按照join key進行分區,根據key相同必然分區相同的原理,就可以將大表join分而治之,劃分為很多小表的join,充分利用集群資源並行化。如下圖所示,shuffle hash join也可以分為兩步:

  1. shuffle階段:分別將兩個表按照join key進行分區,將相同join key的記錄重分佈到同一節點,兩張表的數據會被重分佈到集群中所有節點。這個過程稱為shuffle。
  2. hash join階段:每個分區節點上的數據單獨執行單機hash join演算法。

 

看到這裡,可以初步總結出來如果兩張小表join可以直接使用單機版hash join;如果一張大表join一張極小表,可以選擇broadcast hash join演算法;而如果是一張大表join一張小表,則可以選擇shuffle hash join演算法;那如果是兩張大表進行join呢?

sort merge join

SparkSQL對兩張大表join採用了全新的演算法-sort-merge join,如下圖所示,整個過程分為三個步驟:

 

  1. shuffle階段:將兩張大表根據join key進行重新分區,兩張表數據會分佈到整個集群,以便分散式並行處理。
  2. sort階段:對單個分區節點的兩表數據,分別進行排序。
  3. merge階段:對排好序的兩張分區表數據執行join操作。join操作很簡單,分別遍歷兩個有序序列,碰到相同join key就merge輸出,否則取更小一邊。如下圖所示:

 

經過上文的分析,很明顯可以得出來這幾種Join的代價關係:cost(broadcast hash join) < cost(shuffle hash join) < cost(sort merge join),數據倉庫設計時最好避免大表與大表的join查詢,SparkSQL也可以根據記憶體資源、帶寬資源適量將參數spark.sql.autoBroadcastJoinThreshold調大,讓更多join實際執行為broadcast hash join。

總結

Join操作是資料庫和大數據計算中的高級特性,因為其獨特的複雜性,很少有同學能夠講清楚其中的原理。本文試圖帶大家真正走進Join的世界,瞭解常用的幾種Join演算法以及各自的適用場景。後面兩篇文章將會在此基礎上不斷深入Join內部,一點一點地揭開它的面紗,敬請關註!

 

本文已由作者範欣欣授權網易雲社區發佈,原文鏈接:SparkSQL大數據實戰:揭開Join的神秘面紗


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、準備 1、關閉cdh中的服務 hdfs、yarn等所有服務;關閉 cm-server、cm-agent;備份cm元資料庫。 2、下載 CDH-5.13.3-1.cdh5.13.3.p0.2-el7.parcel CDH-5.13.3-1.cdh5.13.3.p0.2-el7.parcel.sha ...
  • DBUtils 學習使用 commons-dbutils簡介 commons-dbutils是Apache組織提供的一個開源JDBC工具類庫,它是對JDBC的簡單封裝,學習成本極低,並且使用dbutils能極大簡化jdbc編碼的工作量,同時也不會影響程式的性能。因此dbutils成為很多不喜歡hib ...
  • 多表查詢sql語句 1 --解鎖SCOTT用戶 2 alter user scott account unlock 3 --檢索指定的列 4 select job,ename,empno from emp; 5 --帶有表達是的select子句 6 select sal*(1+0.2),sal fr ...
  • 資料庫編程題 1、 姓名 日期 是否上班 張三 星期二 是 張三 星期三 是 李四 星期一 是 王五 星期二 是 張三 星期二 是 寫出一條SQL語句輸出下列結果 姓名 星期一 星期二 星期三 張三 2 1 李四 1 王五 1 答案: select t.name,SUM(Case when t.da ...
  • 區別: (1)#將傳入的數據都當成一個字元串,會對自動傳入的數據加一個雙引號。如:order by #user_id#,如果傳入的值是id,則解析成的sql為order by "id"。 (2)$將傳入的數據直接顯示生成在sql中。如:order by $user_id$,如果傳入的值是id,則解析 ...
  • 本文轉自:https://stackoverflow.com/questions/48135889/writing-nvarchar-to-a-text-file According to the Scripting.FileSystemObject documentation, the Creat ...
  • 查找列名等於某一字元串: select * from table where column like '%string%' 查找列名不等於某一字元串 select * from table where column not like '%string%' ...
  • 1 select t1.empno, t1.ename, t1.deptno, t1.sal 2 from emp t1 3 inner join ( 4 select t2.deptno, max(sal) max_sal 5 from emp t2 6 group by t2.deptno ) ... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...