HBase面試問題_ZenDei技術網路在線

HBase面試問題

-Advertisement-

一、HBase的特點是什麼 1.HBase一個分散式的基於列式存儲的資料庫,基於hadoop的hdfs存儲，zookeeper進行管理。 2.HBase適合存儲半結構化或非結構化數據，對於數據結構欄位不夠確定或者雜亂無章很難按一個概念去抽取的數據。 3.HBase為null的記錄不會被存儲. 4.基 ...

一、HBase的特點是什麼 1.HBase一個分散式的基於列式存儲的資料庫,基於hadoop的hdfs存儲，zookeeper進行管理。 2.HBase適合存儲半結構化或非結構化數據，對於數據結構欄位不夠確定或者雜亂無章很難按一個概念去抽取的數據。 3.HBase為null的記錄不會被存儲. 4.基於的表包含rowkey，時間戳，和列族。新寫入數據時，時間戳更新，同時可以查詢到以前的版本. 5.HBase是主從架構。Hmaster作為主節點，Hregionserver作為從節點。二、HBase和hive的區別註：(參考HIVE和hbase區別) 三、描述HBase的rowkey的設計原則註：(描述HBase的rowkey的設計原則 ) 四、描述HBase中scan和get的功能以及實現的異同 HBase的查詢實現只提供兩種方式：

1、按指定RowKey 獲取唯一一條記錄，get方法（org.apache.hadoop.hbase.client.Get）

Get 的方法處理分兩種 : 設置了ClosestRowBefore 和沒有設置的rowlock .主要是用來保證行的事務性，即每個get 是以一個row 來標記的.一個row中可以有很多family 和column.

2、按指定的條件獲取一批記錄，scan方法(org.apache.Hadoop.hbase.client.Scan）實現條件查詢功能使用的就是scan 方式.

1)scan 可以通過setCaching 與setBatch 方法提高速度(以空間換時間)；

2)scan 可以通過setStartRow 與setEndRow 來限定範圍([start，end)start 是閉區間，

end 是開區間)。範圍越小，性能越高。

3)、scan 可以通過setFilter 方法添加過濾器，這也是分頁、多條件查詢的基礎。五、描述如何解決HBase中region太小和region太大帶來的衝突 Region過大會發生多次compaction，將數據讀一遍並重寫一遍到hdfs 上，占用io，region過小會造成多次split，region 會下線，影響訪問服務，調整hbase.hregion.max.filesize 為256m. 六、簡述HBase中compact用途是什麼，什麼時候觸發，分為哪兩種,有什麼區別，有哪些相關配置參數？在hbase中每當有memstore數據flush到磁碟之後，就形成一個storefile，當storeFile的數量達到一定程度後，就需要將 storefile 文件來進行 compaction 操作。

Compact 的作用：

1>.合併文件

2>.清除過期，多餘版本的數據

3>.提高讀寫數據的效率

HBase 中實現了兩種 compaction 的方式：minor and major. 這兩種 compaction 方式的區別是：

1、Minor 操作只用來做部分文件的合併操作以及包括 minVersion=0 並且設置 ttl 的過

期版本清理，不做任何刪除數據、多版本數據的清理工作。

2、Major 操作是對 Region 下的HStore下的所有StoreFile執行合併操作，最終的結果是整理合併出一個文件。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Oracle / PLSQL寫語句的時候常使用的函數

下麵開始記錄一下，自己在Oracle或者PLSQL常用的幾個函數，顯示效果如下圖所示：與此同時，和他相同的函數是下麵的函數顯示效果如下圖所示： ...
創建商城數據表

...
Mac安裝mysql

雙擊pkg文件安裝一路向下，記得保存最後彈出框中的密碼（它是你mysql root賬號的密碼）正常情況下，安裝成功。此時只是安裝成功，但還需要額外的配置： (1) 進入系統偏好設置 (2) 點擊mysql 開啟mysql服務此時我們在命令行輸入mysql -uroot -p命令會提示沒有co ...
memcached學習——memcached的記憶體分配機制Slab Allocation、記憶體使用機制LRU、常用監控記錄（四）

記憶體分配機制Slab Allocation 本文參考博客：https://my.oschina.net/bieber/blog/505458 Memcached的記憶體分配是以slabs為單位的，會根據初始chunk大小、增長因數、存儲數據的大小實際劃分出多個不同的slabs class，slab c ...
memcached學習——大綱簡介 && 安裝(基於centos6.5)、啟動、關閉memcached（一）

大綱簡介安裝前，先簡單介紹一下memcached。 memcached是一個免費、開源、高性能的分散式緩存。設計memcached的初衷是為了加快web應用程式，減少DB負載。安裝要求：支持大多數linux和基於BSD的系統，官方沒有給出windows版本，但是網上有memcached for ...
twemproxy代碼框架概述——剖析twemproxy代碼前編

本篇將去探索twemproxy源碼的主幹流程，想來對於想要開始啃這份優秀源碼生肉的童鞋會有不小的幫助。這裡我們首先要找到 twemproxy正確的打開方式——twemproxy的文件結構，接著介紹twemproxy程式代碼框架，最後介紹twemproxy程式的主幹流程。主幹流程是本章節的重中之重。這 ...
關於T-SQL重編譯那點事，WITH RECOMPILE和OPTION(RECOMPILE)區別僅僅是存儲過程級重編譯和SQL語句級重編譯嗎

本文出處：http://www.cnblogs.com/wy123/p/6262800.html 在考慮重編譯T-SQL(或者存儲過程)的時候，有兩種方式可以實現強制重編譯（前提是忽略導致重編譯的其他因素的情況下，比如重建索引，更新統計信息等等），一是基於WITH RECOMPILE的存儲過程級別 ...
SQL Server常見問題總結

寫在前面在QQ群，微信群，論壇中經常幫助使用SQL Server資料庫的朋友解決問題，但是有一些最常見最基本的問題，每天都有人問，回答多了也不想再解答了，索性把這些問題整理一下，再有人問到直接發鏈接。一時想法而寫這篇文章，問題可能不全面，後續會一直更新。基礎問題收集資源下載描述：XX版本數 ...