Spark 讀取 Hbase 優化 --手動劃分 region 提高並行數

来源:https://www.cnblogs.com/listenfwind/archive/2018/12/15/10122838.html
-Advertisement-
Play Games

一. Hbase 的 region 我們先簡單介紹下 Hbase 的 架構和 region : 從物理集群的角度看,Hbase 集群中,由一個 Hmaster 管理多個 HRegionServer,其中每個 HRegionServer 都對應一臺物理機器,一臺 HRegionServer 伺服器上又 ...


一. Hbase 的 region

我們先簡單介紹下 Hbase 的 架構和 region :

從物理集群的角度看,Hbase 集群中,由一個 Hmaster 管理多個 HRegionServer,其中每個 HRegionServer 都對應一臺物理機器,一臺 HRegionServer 伺服器上又可以有多個 Hregion(以下簡稱 region)。要讀取一個數據的時候,首先要先找到存放這個數據的 region。而 Spark 在讀取 Hbase 的時候,讀取的 Rdd 會根據 Hbase 的 region 數量劃分 stage。所以當 region 存儲設置得比較大導致 region 比較少,而 spark 的 cpu core 又比較多的時候,就會出現無法充分利用 spark 集群所有 cpu core 的情況。

我們再從邏輯表結構的角度看看 Hbase 表和 region 的關係。

  • Hbase是通過把數據分配到一定數量的region來達到負載均衡的。一個table會被分配到一個或多個region中,這些region會被分配到一個或者多個regionServer中。在自動split策略中,當一個region達到一定的大小就會自動split成兩個region。
  • Region由一個或者多個Store組成,每個store保存一個columns family,每個Strore又由一個memStore和0至多個StoreFile 組成。memStore存儲在記憶體中, StoreFile存儲在HDFS上
  • region是HBase中分散式存儲和負載均衡的最小單元。不同Region分佈到不同RegionServer上,但並不是存儲的最小單元。

二. Spark 讀取 Hbase 優化及 region 手動拆分

在用spark的時候,spark正是根據hbase有多少個region來劃分stage。也就是說region劃分得太少會導致spark讀取時的併發度太低,浪費性能。但如果region數目太多就會造成讀寫性能下降,也會增加ZooKeeper的負擔。所以設置每個region的大小就很關鍵了。

自0.94.0版本以來,split還有三種策略可以選擇,不過一般使用預設的分區策略就可以滿足需求,我們要修改的是會觸發 region 分區的存儲容量大小。

而在0.94.0版本中,預設的 region 大小為10G,就是說當存儲的數據達到 10 G 的時候,就會觸發 region 分區操作。有時候這個值可能太大,這時候就需要修改配置了。我們可以在 HBASE_HOME/conf/hbase-site.xml 文件中,增加如下配置:

<property> 
<name>hbase.hregion.max.filesize</name> 
<value>536870912</value>
</property>

其中的 value 值就是你要修改的觸發 region 分區的大小,要註意這個值是以 bit 為單位的,這裡是將region文件的大小改為512m。

修改之後我們就可以手動 split region了,手動分區會自動根據這個新的配置值大小,將 region 已經存儲起來的數據進行再次進行拆分。

我們可以在 hbase shell 中使用 split 來進行操作,有以下幾種方式可以進行手動拆分。

split ‘tableName’ 
split ‘namespace:tableName’ 
split ‘regionName’ # format: ‘tableName,startKey,id’ 
split ‘tableName’, ‘splitKey’ 
split ‘regionName’, ‘splitKey’

這裡使用的是 split ‘namespace:tableName’ 這種方式。其中 tableName 自不必多說,就是要拆分的表名,namespace可以在hbase的web界面中查看,一般會是default。

使用命令之後稍等一會,hbase會根據新的region文件大小去split,最終結果可以在web-ui的"table Details"一欄,點擊具體table查看。

以上~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在我們Winform開發中,往往需要涉及到附件的統一管理,因此我傾向於把它們獨立出來作為一個附件管理模塊,這樣各個模塊都可以使用這個附件管理模塊,更好的實現模塊重用的目的。在涉及附件管理的場景中,一個數據記錄可能對應多個附件組場景,每個附件組則涉及附件多個文件,往往這些附件可能放置的目錄會有所不同,... ...
  • 2.1 控制器的角色 MVC模式中的控制器(Controller)主要負責響應用戶的輸入,冰球在響應時修改模型(Model)。通過這種方式,MVC模式中的控制器主要關註的是應用程式流、輸入數據的處理,以及對相關視圖(View)輸出數據的提供。 URL首先告知陸游機制去實例化哪個控制器,調用哪個操作方 ...
  • C# winfrom 寫的一個搜索助手,可以按照標題和內容搜索,指定目錄後,遍歷搜索文件和子目,現在只寫了支持.DOC.DOCX.XLS.XLSX.PPT.PPTX.PDF.HTML.HTM.TXT等格式的文件搜索,讀取execl 內容使用的是NPOI組件,doc,html,txt 格式的使用Str ...
  • 我利用網路上的windows 10 純凈版來進行安裝windows 10 鏡像的時候,發現很多的windows 的服務都是不能用的。比如啟動/刪除 windows 功能就是不能用的,會出現如下信息: 發現出現了:“參照的程式集沒有安裝在系統上” 的錯誤,這應該是,你不小心安裝上精簡版系統造成的,某些 ...
  • 前幾節里,通過幾個案例,分析了各種常見的 CPU 性能問題。通過這些,相信對 CPU 的性能分析已經不再陌生和恐懼,起碼有了基本的思路,也瞭解了不少 CPU 性能的分析工 具。 不過,我猜你可能也碰到了一個我曾有過的困惑: CPU 的性能指標那麼多,CPU 性能分析工具 也是一抓一大把,如果離開專欄 ...
  • 控制台命令 運行redis # ./bin/redis-server ./redis.conf 搜索redis是否運行 # ps -ef | grep -i redis 關閉redis # ./bin/redis-cli shutdown 進入redis # ./bin/redis-cli 127. ...
  • 多表聯合查詢簡介 定義:連接查詢是關係型資料庫最主要的查詢,通過連接運算符可以實現多個表連接數據查詢。 分類:內連接,外連接,全外連接。 內連接 定義 內聯接使用比較運算符根據每個表的通用列中的值匹配兩個表中的行。 語法 select 表1.*,表2.* from 表1 as a [wtih(鎖)] ...
  • 問題描述:主庫備庫之前正常連接,但是昨天磁碟空間滿了之後,由於不知什麼原因將備庫重做日誌刪了,今天早上發現DG不同步的報警。 當時思路如下:1、通過select thread#,low_sequence#,high_sequence# from v$archive_gap; 查看是否有歸檔沒有傳到備 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...