本文會著重介紹一下YCSB測試遠程完全分散式集群的操作差異。雖然網上有很多介紹YCSB測試HBase的文章,但都是針對本地HBase偽分散式集群的。大家都知道,稍微正式一些的壓測都會要求測試客戶端與目標集群分離部署,而且偽分散式集群通常不會在生產環境下使用,本身也沒有太大的壓測意義。 ...
寫在前面
本文只講一個很簡單的問題,YCSB對HBase集群的測試。雖然網上有很多介紹YCSB測試HBase的文章,但都是針對本地HBase偽分散式集群的。大家都知道,稍微正式一些的壓測都會要求測試客戶端與目標集群分離部署,而且偽分散式集群通常不會在生產環境下使用,本身也沒有太大的壓測意義。本文會著重介紹一下壓測遠程HBase完全分散式集群的不同之處。
正文
YCSB是Yahoo開源的性能測試工具,支持很多種類的NoSQL資料庫測試,這裡既包括了經典的HBase/Cassandra/MongoDB,也有近兩年新推出的Spanner/Kudu等。此外,YCSB最大的特點是其靈活性,對於尚未納入官方支持的NoSQL資料庫,可以快速進行二次開發。如果你正在進行NoSQL資料庫選型或者研發一款定製版Nosql資料庫,那麼YCSB一定是你居家旅行必備良藥。
二次開發工作主要是com.yahoo.ycsb.DB的基礎上定義自己的介面實現。DB是一個抽象類,定義了NoSQL資料庫的5類典型操作,包括insert/update/delete/read/scan。你需要為自己的Nosql實現該上述方法。當然還有一些初始化(init)和收尾工作(cleanup)也要有相應的處理。
HBase是YCSB較早支持的NoSQL資料庫,目前在主線版本上支持0.98/1.0/1.2/1.4/2.0幾個版本(後兩個版本是在2018-03-23增加的)。這些版本的主要差別在於對DB類的不同實現,閱讀源碼可以發現,在1.0版本後,DB的實現類並沒有發生變化,1.2/1.4/2.0三個版本都是直接繼承了1.0版,沒有重載任何方法。從這點上來說,Ivan認為使用其中哪個版本測試應該都是OK的。
使用YCSB進行HBase完全分散式集群測試,主要是以下幾個步驟。
1、搭建HBase分散式集群
Ivan的HBase版本為1.2.6,部署HBase集群具體步驟略去。
2、下載YCSB版本
Ivan選擇的是YCSB0.13版本,如果使用master應該也是OK的,前文已經說過,這兩個版本中HBase的訪問介面是一樣的。
wget https://github.com/brianfrankcooper/YCSB/archive/0.13.0-staging.zip
3、編譯YCSB
執行進行編譯。
mvn clean package
由於YCSB支持了很多NoSQL資料庫,所以在編譯時依賴的Jar包也比較多。Ivan嘗試了幾次編譯,都由於下載依賴包超時失敗,尤其是在cassandra部分。看了下maven的輸出信息,超時的部分都是測試相關的。所以調整命令如下
mvn clean package -Dmaven.test.skip=true
編譯順利完成。
4、添加HBase配置
本文的重點來了!!!很多人容易犯暈的地方。
事實上,如果YCSB與HBase偽分散式集群合併部署時,這部分的配置是可以忽略的。YCSB通過上下文全局變數可以直接得到HBase的信息,實現壓測。可能這就是網上很多文章並不去介紹配置的原因。
我們還是從YCSB官方文檔找答案,在0.94/0.98/1.0三個版本中給出的配置方式完全不同,仔細閱讀發現1.0版本實際上是特別針對Google BigTable的配置文件。這由於BigTable提供了對HBase的相容API,YCSB將其作為一種NoSQL雲服務也納入了進來。但是此處的配置沒有參考意義。在1.2版本中,雖然介面代碼繼承自1.0版本,但readme中明確提到配置文件要參考0.98版本,後續1.4/2.0的readme基本是照抄。
閱讀0.98版本的readme,發現其實設置非常簡單,我們只需要將HBase集群master節點下的hbase-site.xml文件拷貝到YCSB節點的某個位置,併在稍後的命令中指定即可。
網上有的文章會提到其他配置甚至腳步文件,這裡Ivan明確的說,只需要hbase-site.xml,不需要其他文件!!!
Ivan的hbase-site.xml文件內容如下。
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://master:9000/hbase</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>master,slave1,slave2</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/usr/bigdata/zookeeper-3.4.11/zkData</value>
</property>
</configuration>
事實上,YCSB主要是從中讀取zookeeper的節點信息。
Ivan將hbase-site.xml拷貝到/home/ycsb-hbase/conf(也可根據你的環境定義其他路徑)目錄下
所以相應的,請修改YCSB本地的hosts文件,將機器名與IP的對應關係維護進去。
5、創建目標表
創建usertable表,這個是YCSB測試的前置條件,測試腳本中不會自動創建
create 'usertable','family'
6、執行測試命令
最後一步,只需要在命令行中增加 -cp 參數指定hbase-site.xml的路徑即可。
例如以下命令。
1)載入數據
bin/ycsb load hbase10 -P workloads/workloada -cp /home/ycsb-hbase/conf -p table=usertable -p columnfamily=family -threads 100
2)執行scan測試
bin/ycsb run hbase10 -P workloads/workloade -cp /home/ycsb-hbase/conf -p table=usertable -p columnfamily=family -threads 100
打完收工。
最後啰嗦一句,YCSB測試HBase完全分散式集群的主要差異在於配置文件,即hbase-site.xml和修改本地hosts文件,目的是為了連接zookeeper集群。
更多YCSB介紹與測試命令可參考前文 NoSQL性能測試工具YCSB-Running a Workload