HBase Filter 過濾器之 Comparator 原理及源碼學習

来源:https://www.cnblogs.com/zpb2016/archive/2020/04/25/12775374.html
-Advertisement-
Play Games

前言: 上篇文章 "HBase Filter 過濾器概述" 對HBase過濾器的組成及其家譜進行簡單介紹,本篇文章主要對HBase過濾器之比較器作一個補充介紹,也算是HBase Filter學習的必備低階魂技吧。本篇文中源碼基於HBase 1.1.2.2.6.5.0 292 HDP版本。 HBase ...


前言:上篇文章HBase Filter 過濾器概述對HBase過濾器的組成及其家譜進行簡單介紹,本篇文章主要對HBase過濾器之比較器作一個補充介紹,也算是HBase Filter學習的必備低階魂技吧。本篇文中源碼基於HBase 1.1.2.2.6.5.0-292 HDP版本。

HBase所有的比較器實現類都繼承於父類ByteArrayComparable,而ByteArrayComparable又實現了Comparable介面;不同功能的比較器差別在於對父類compareTo()方法的重寫邏輯不同。

下麵分別對HBase Filter預設實現的七大比較器一一進行介紹。

1. BinaryComparator

介紹:二進位比較器,用於按字典順序比較指定位元組數組。

先看一個小例子:

public class BinaryComparatorDemo {

    public static void main(String[] args) {

        BinaryComparator bc = new BinaryComparator(Bytes.toBytes("bbb"));

        int code1 = bc.compareTo(Bytes.toBytes("bbb"), 0, 3);
        System.out.println(code1); // 0
        int code2 = bc.compareTo(Bytes.toBytes("aaa"), 0, 3);
        System.out.println(code2); // 1
        int code3 = bc.compareTo(Bytes.toBytes("ccc"), 0, 3);
        System.out.println(code3); // -1
        int code4 = bc.compareTo(Bytes.toBytes("bbf"), 0, 3);
        System.out.println(code4); // -4
        int code5 = bc.compareTo(Bytes.toBytes("bbbedf"), 0, 6);
        System.out.println(code5); // -3
    }
}

不難看出,該比較器的比較規則如下:

  • 兩個字元串首字母不同,則該方法返迴首字母的asc碼的差值
  • 參與比較的兩個字元串如果首字元相同,則比較下一個字元,直到有不同的為止,返回該不同的字元的asc碼差值
  • 兩個字元串不一樣長,可以參與比較的字元又完全一樣,則返回兩個字元串的長度差值

看一下以上規則對應其compareTo()方法的源碼實現:
實現一:

static enum UnsafeComparer implements Bytes.Comparer<byte[]> {
INSTANCE;
....
public int compareTo(byte[] buffer1, int offset1, int length1, byte[] buffer2, int offset2, int length2) {
	if (buffer1 == buffer2 && offset1 == offset2 && length1 == length2) {
		return 0;
	} else {
		int minLength = Math.min(length1, length2);
		int minWords = minLength / 8;
		long offset1Adj = (long)(offset1 + BYTE_ARRAY_BASE_OFFSET);
		long offset2Adj = (long)(offset2 + BYTE_ARRAY_BASE_OFFSET);
		int j = minWords << 3;

		int offset;
		for(offset = 0; offset < j; offset += 8) {
			long lw = theUnsafe.getLong(buffer1, offset1Adj + (long)offset);
			long rw = theUnsafe.getLong(buffer2, offset2Adj + (long)offset);
			long diff = lw ^ rw;
			if (diff != 0L) {
				return lessThanUnsignedLong(lw, rw) ? -1 : 1;
			}
		}

		offset = j;
		int b;
		int a;
		if (minLength - j >= 4) {
			a = theUnsafe.getInt(buffer1, offset1Adj + (long)j);
			b = theUnsafe.getInt(buffer2, offset2Adj + (long)j);
			if (a != b) {
				return lessThanUnsignedInt(a, b) ? -1 : 1;
			}

			offset = j + 4;
		}

		if (minLength - offset >= 2) {
			short sl = theUnsafe.getShort(buffer1, offset1Adj + (long)offset);
			short sr = theUnsafe.getShort(buffer2, offset2Adj + (long)offset);
			if (sl != sr) {
				return lessThanUnsignedShort(sl, sr) ? -1 : 1;
			}

			offset += 2;
		}

		if (minLength - offset == 1) {
			a = buffer1[offset1 + offset] & 255;
			b = buffer2[offset2 + offset] & 255;
			if (a != b) {
				return a - b;
			}
		}

		return length1 - length2;
	}
}

實現二:

static enum PureJavaComparer implements Bytes.Comparer<byte[]> {
	INSTANCE;

	private PureJavaComparer() {
	}

	public int compareTo(byte[] buffer1, int offset1, int length1, byte[] buffer2, int offset2, int length2) {
		if (buffer1 == buffer2 && offset1 == offset2 && length1 == length2) {
			return 0;
		} else {
			int end1 = offset1 + length1;
			int end2 = offset2 + length2;
			int i = offset1;

			for(int j = offset2; i < end1 && j < end2; ++j) {
				int a = buffer1[i] & 255;
				int b = buffer2[j] & 255;
				if (a != b) {
					return a - b;
				}

				++i;
			}

			return length1 - length2;
		}
	}
}

實現一是對實現二的一個優化,都引自Bytes類,HBase優先執行實現一方案,如果有異常再執行實現二方案。如下:

public static int compareTo(byte[] buffer1, int offset1, int length1, byte[] buffer2, int offset2, int length2) {
	return Bytes.LexicographicalComparerHolder.BEST_COMPARER.compareTo(buffer1, offset1, length1, buffer2, offset2, length2);
}
...
...

static final String UNSAFE_COMPARER_NAME = Bytes.LexicographicalComparerHolder.class.getName() + "$UnsafeComparer";
static final Bytes.Comparer<byte[]> BEST_COMPARER = getBestComparer();
static Bytes.Comparer<byte[]> getBestComparer() {
	try {
		Class<?> theClass = Class.forName(UNSAFE_COMPARER_NAME);
		Bytes.Comparer<byte[]> comparer = (Bytes.Comparer)theClass.getEnumConstants()[0];
		return comparer;
	} catch (Throwable var2) {
		return Bytes.lexicographicalComparerJavaImpl();
	}
}

2. BinaryPrefixComparator

介紹:二進位比較器,只比較首碼是否與指定位元組數組相同。

先看一個小例子:

public class BinaryPrefixComparatorDemo {

    public static void main(String[] args) {

        BinaryPrefixComparator bc = new BinaryPrefixComparator(Bytes.toBytes("b"));

        int code1 = bc.compareTo(Bytes.toBytes("bbb"), 0, 3);
        System.out.println(code1); // 0
        int code2 = bc.compareTo(Bytes.toBytes("aaa"), 0, 3);
        System.out.println(code2); // 1
        int code3 = bc.compareTo(Bytes.toBytes("ccc"), 0, 3);
        System.out.println(code3); // -1
        int code4 = bc.compareTo(Bytes.toBytes("bbf"), 0, 3);
        System.out.println(code4); // 0
        int code5 = bc.compareTo(Bytes.toBytes("bbbedf"), 0, 6);
        System.out.println(code5); // 0
        int code6 = bc.compareTo(Bytes.toBytes("ebbedf"), 0, 6);
        System.out.println(code6); // -3
    }
}

該比較器只是基於BinaryComparator比較器稍作更改而已,以下代碼一目瞭然:

public int compareTo(byte[] value, int offset, int length) {
	return Bytes.compareTo(this.value, 0, this.value.length, value, offset, this.value.length <= length ? this.value.length : length);
}

看一下同BinaryComparator方法的異同:

public int compareTo(byte[] value, int offset, int length) {
	return Bytes.compareTo(this.value, 0, this.value.length, value, offset, length);
}

區別隻在於最後一個傳參,即length=min(this.value.length,value.length),取小。這樣在後面的位元組逐位比較時,即只需比較min length次。

3. BitComparator

介紹:位比價器,通過BitwiseOp提供的AND(與)、OR(或)、NOT(非)進行比較。返回結果要麼為1要麼為0,僅支持 EQUAL 和非 EQUAL。

先看一個小例子:

public class BitComparatorDemo {

    public static void main(String[] args) {

        // 長度相同按位或比較:由低位起逐位比較,每一位按位或比較都為0,則返回1,否則返回0。
        BitComparator bc1 = new BitComparator(new byte[]{0,0,0,0}, BitComparator.BitwiseOp.OR);
        int i = bc1.compareTo(new byte[]{0,0,0,0}, 0, 4);
        System.out.println(i); // 1
        // 長度相同按位與比較:由低位起逐位比較,每一位按位與比較都為0,則返回1,否則返回0。
        BitComparator bc2 = new BitComparator(new byte[]{1,0,1,0}, BitComparator.BitwiseOp.AND);
        int j = bc2.compareTo(new byte[]{0,1,0,1}, 0, 4);
        System.out.println(j); // 1
        // 長度相同按位異或比較:由低位起逐位比較,每一位按位異或比較都為0,則返回1,否則返回0。
        BitComparator bc3 = new BitComparator(new byte[]{1,0,1,0}, BitComparator.BitwiseOp.XOR);
        int x = bc3.compareTo(new byte[]{1,0,1,0}, 0, 4);
        System.out.println(x); // 1
        // 長度不同,返回1,否則按位比較
        BitComparator bc4 = new BitComparator(new byte[]{1,0,1,0}, BitComparator.BitwiseOp.XOR);
        int y = bc4.compareTo(new byte[]{1,0,1}, 0, 3);
        System.out.println(y); // 1
    }
}

上述註釋闡述的規則,對應以下代碼:
···
public int compareTo(byte[] value, int offset, int length) {
if (length != this.value.length) {
return 1;
} else {
int b = 0;

	for(int i = length - 1; i >= 0 && b == 0; --i) {
		switch(this.bitOperator) {
		case AND:
			b = this.value[i] & value[i + offset] & 255;
			break;
		case OR:
			b = (this.value[i] | value[i + offset]) & 255;
			break;
		case XOR:
			b = (this.value[i] ^ value[i + offset]) & 255;
		}
	}

	return b == 0 ? 1 : 0;
}

}
···
核心思想就是:由低位起逐位比較,直到b!=0退出迴圈。

4. LongComparator

介紹:Long 型專用比較器,返回值:0 -1 1。上篇概述沒有提到,這裡補上。

先看一個小例子:

public class LongComparatorDemo {

    public static void main(String[] args) {
        LongComparator longComparator = new LongComparator(1000L);
        int i = longComparator.compareTo(Bytes.toBytes(1000L), 0, 8);
        System.out.println(i); // 0
        int i2 = longComparator.compareTo(Bytes.toBytes(1001L), 0, 8);
        System.out.println(i2); // -1
        int i3 = longComparator.compareTo(Bytes.toBytes(998L), 0, 8);
        System.out.println(i3); // 1
    }
}

這個比較器實現相當簡單,不多說了,如下:

public int compareTo(byte[] value, int offset, int length) {
	Long that = Bytes.toLong(value, offset, length);
	return this.longValue.compareTo(that);
}

5. NullComparatorDemo

介紹:控制比較式,判斷當前值是不是為null。是null返回0,不是null返回1,僅支持 EQUAL 和非 EQUAL。

先看一個小例子:

public class NullComparatorDemo {

    public static void main(String[] args) {
        NullComparator nc = new NullComparator();
        int i1 = nc.compareTo(Bytes.toBytes("abc"));
        int i2 = nc.compareTo(Bytes.toBytes(""));
        int i3 = nc.compareTo(null);
        System.out.println(i1); // 1
        System.out.println(i2); // 1
        System.out.println(i3); // 0
    }
}

這個比較器實現相當簡單,不多說了,如下:

public int compareTo(byte[] value) {
	return value != null ? 1 : 0;
}

6. RegexStringComparator

介紹:提供一個正則的比較器,支持正則表達式的值比較,僅支持 EQUAL 和非 EQUAL。匹配成功返回0,匹配失敗返回1。

先看一個小例子:

public class RegexStringComparatorDemo {

    public static void main(String[] args) {
        RegexStringComparator rsc = new RegexStringComparator("abc");
        int abc = rsc.compareTo(Bytes.toBytes("abcd"), 0, 3);
        System.out.println(abc); // 0
        int bcd = rsc.compareTo(Bytes.toBytes("bcd"), 0, 3);
        System.out.println(bcd); // 1

        String check = "^([a-z0-9A-Z]+[-|\\.]?)+[a-z0-9A-Z]@([a-z0-9A-Z]+(-[a-z0-9A-Z]+)?\\.)+[a-zA-Z]{2,}$";
        RegexStringComparator rsc2 = new RegexStringComparator(check);
        int code = rsc2.compareTo(Bytes.toBytes("[email protected]"), 0, "[email protected]".length());
        System.out.println(code); // 0
        int code2 = rsc2.compareTo(Bytes.toBytes("zpb#163.com"), 0, "zpb#163.com".length());
        System.out.println(code2); // 1
    }
}

其compareTo()方法有兩種引擎實現,對應兩套正則匹配規則,分別是JAVA版和JONI版(面向JRuby),預設為RegexStringComparator.EngineType.JAVA。如下:

public int compareTo(byte[] value, int offset, int length) {
	return this.engine.compareTo(value, offset, length);
}

public static enum EngineType {
	JAVA,
	JONI;

	private EngineType() {
	}
}

具體實現都很簡單,都是調用正則語法匹配。以下是JAVA EngineType 實現:

public int compareTo(byte[] value, int offset, int length) {
	String tmp;
	if (length < value.length / 2) {
		tmp = new String(Arrays.copyOfRange(value, offset, offset + length), this.charset);
	} else {
		tmp = new String(value, offset, length, this.charset);
	}

	return this.pattern.matcher(tmp).find() ? 0 : 1;
}

JONI EngineType 實現:

public int compareTo(byte[] value, int offset, int length) {
	Matcher m = this.pattern.matcher(value);
	return m.search(offset, length, this.pattern.getOptions()) < 0 ? 1 : 0;
}

都很容易理解,不多說了。

7. SubstringComparator

介紹:判斷提供的子串是否出現在value中,並且不區分大小寫。包含字串返回0,不包含返回1,僅支持 EQUAL 和非 EQUAL。

先看一個小例子:

public class SubstringComparatorDemo {

    public static void main(String[] args) {
        String value = "aslfjllkabcxxljsl";
        SubstringComparator sc = new SubstringComparator("abc");
        int i = sc.compareTo(Bytes.toBytes(value), 0, value.length());
        System.out.println(i); // 0

        SubstringComparator sc2 = new SubstringComparator("abd");
        int i2 = sc2.compareTo(Bytes.toBytes(value), 0, value.length());
        System.out.println(i2); // 1

        SubstringComparator sc3 = new SubstringComparator("ABC");
        int i3 = sc3.compareTo(Bytes.toBytes(value), 0, value.length());
        System.out.println(i3); // 0
    }
}

這個比較器實現也相當簡單,不多說了,如下:

public int compareTo(byte[] value, int offset, int length) {
	return Bytes.toString(value, offset, length).toLowerCase().contains(this.substr) ? 0 : 1;
}

到此,七種比較器就介紹完了。如果對源碼不敢興趣,也建議一定要看看文中的小例子,熟悉下每種比較器的構造函數及結果輸出。後續在使用HBase過濾器的過程中,會經常用到。當然除了這七種比較器,大家也可以自定義比較器。

掃描二維碼關註博主公眾號

轉載請註明出處!歡迎關註本人微信公眾號【HBase工作筆記】


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在linux命令中“|”是管道符,表示前面的輸出作為後面的輸入 uname 顯示內核 uname -a 顯示內核所有信息 history 查看歷史的命令執行記錄(用!加上執行記錄命令的編號可以執行之前那一條的命令) sosreport 收集系統的信息 who 顯示當前登錄的有那些用戶 who -b ...
  • ccookie就是用來讓服務端辨識客戶端的一種機制;而對於haproxy來講,基於cookie來做會話保持的原理就是通過對後端伺服器響應報文中的cookie信息中插入(或覆蓋的方式)一個鍵值對,在客戶端下次訪問時,檢查對應cookie首部的信息,從而讓haproxy能夠判斷把該請求調度在那個後端服... ...
  • Ansible Facts 變數詳解與使用案例 主機規劃 添加用戶賬號 說明: 1、 運維人員使用的登錄賬號; 2、 所有的業務都放在 /app/ 下「yun用戶的家目錄」,避免業務數據亂放; 3、 該用戶也被 ansible 使用,因為幾乎所有的生產環境都是禁止 root 遠程登錄的(因此該 yu ...
  • 每次brew安裝新包的時候必先更新自身,網路慢的時候brew update無限卡死,雖然按一次ctrl C可以跳過,但有時候恰恰是brew本身版本導致的莫名其妙的問題出現,如果不把航空母艦更新了,後面也不會順利。 今天一怒之下,換了阿裡鏡像,果然一切迎刃而解了(原教派) 貼上iterm-bash腳本 ...
  • 時間久了,很多知識點都忘記了: Linux 系統中 文件許可權對應的數字: r = 4; w = 2; x = 1; 許可權可以使用 chmod 命令改變,具體使用可以參考manpages; 關於粘貼位的講解請參考:https://www.cnblogs.com/xuyaowen/p/sticky.ht ...
  • 回到目錄 共集放大電路的公共端為集電極,輸出信號Vo從射極取出。且由於共集放大電路的電壓放大倍數Av近似於1(即輸出電壓等於輸入電壓),因此常被稱作射極跟隨器(emitter-follower)。由於共集放大電路和共射放大電路的形式非常類似,僅僅是從不同的極取出輸出信號,因此也有:固定偏置、分壓偏置 ...
  • 當我們在一臺 Linux 系統中安裝了 Docker 後, 有時候會遇到下麵這樣的錯誤, 我們在運行 docker 的命令時必須加上 sudo, 例如: , 但是我們其實更希望能夠直接通過 來運行 docker 命令。 那麼我們可以如何解決這樣的問題呢? 可以參考如下步驟: 創建 docker 的用 ...
  • 配置 Hadoop 偽分散式 任務配置說明: VMware 15 Centos 6.5 java -jdk 1.8 hadoop-2.6.0-cdh5.14.0.tar.gz 第一步 自行安裝虛擬機 第二步 開始大配置 修改主機名和用戶名 vim /etc/sysconfig/network --( ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...