品味布隆過濾器的設計之美

来源:https://www.cnblogs.com/makemylife/archive/2023/04/14/17320208.html
-Advertisement-
Play Games

布隆過濾器是一個精巧而且經典的數據結構。 你可能沒想到: RocketMQ、 Hbase 、Cassandra 、LevelDB 、RocksDB 這些知名項目中都有布隆過濾器的身影。 對於後端程式員來講,學習和理解布隆過濾器有很大的必要性。來吧,我們一起品味布隆過濾器的設計之美。 1 緩存穿透 我 ...


布隆過濾器是一個精巧而且經典的數據結構。

你可能沒想到: RocketMQ、 Hbase 、Cassandra 、LevelDB 、RocksDB 這些知名項目中都有布隆過濾器的身影。

對於後端程式員來講,學習和理解布隆過濾器有很大的必要性。來吧,我們一起品味布隆過濾器的設計之美。

1 緩存穿透

我們先來看一個商品服務查詢詳情的介面:

public Product queryProductById (Long id){
   // 查詢緩存
   Product product = queryFromCache(id);
   if(product != null) {
     return product ;
   }
   // 從資料庫查詢
   product = queryFromDataBase(id);
   if(product != null) {
       saveCache(id , product);
   }
   return product;
}

假設此商品既不存儲在緩存中,也不存在資料庫中,則沒有辦法回寫緩存,當有類似這樣大量的請求訪問服務時,資料庫的壓力就會極大。

這是一個典型的緩存穿透的場景。

為瞭解決這個問題呢,通常我們可以向分散式緩存中寫入一個過期時間較短的空值占位,但這樣會占用較多的存儲空間,性價比不足。

問題的本質是:"如何以極小的代價檢索一個元素是否在一個集合中?"

我們的主角布隆過濾器出場了,它就能游刃有餘的平衡好時間和空間兩種維度

2 原理解析

布隆過濾器(英語:Bloom Filter)是1970年由布隆提出的。它實際上是一個很長的二進位向量和一系列隨機映射函數

布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率查詢時間遠遠超過一般的演算法,缺點是有一定的誤識別率和刪除困難。

布隆過濾器的原理:當一個元素被加入集合時,通過 K 個散列函數將這個元素映射成一個位數組中的 K 個點,把它們置為 1。檢索時,我們只要看看這些點是不是都是 1 就(大約)知道集合中有沒有它了:如果這些點有任何一個 0,則被檢元素一定不在;如果都是 1,則被檢元素很可能在

簡單來說就是準備一個長度為 m 的位數組並初始化所有元素為 0,用 k 個散列函數對元素進行 k 次散列運算跟 len (m) 取餘得到 k 個位置並將 m 中對應位置設置為 1。

如上圖,位數組的長度是8,散列函數個數是 3,先後保持兩個元素x,y。這兩個元素都經過三次哈希函數生成三個哈希值,並映射到位數組的不同的位置,並置為1。元素 x 映射到位數組的第0位,第4位,第7位,元素y映射到數組的位數組的第1位,第4位,第6位。

保存元素 x 後,位數組的第4位被設置為1之後,在處理元素 y 時第4位會被覆蓋,同樣也會設置為 1。

當布隆過濾器保存的元素越多被置為 1 的 bit 位也會越來越多,元素 x 即便沒有存儲過,假設哈希函數映射到位數組的三個位都被其他值設置為 1 了,對於布隆過濾器的機制來講,元素 x 這個值也是存在的,也就是說布隆過濾器存在一定的誤判率

▍ 誤判率

布隆過濾器包含如下四個屬性:

  • k : 哈希函數個數

  • m : 位數組長度

  • n : 插入的元素個數

  • p : 誤判率

若位數組長度太小則會導致所有 bit 位很快都會被置為 1 ,那麼檢索任意值都會返回”可能存在“ , 起不到過濾的效果。 位數組長度越大,則誤判率越小。

同時,哈希函數的個數也需要考量,哈希函數的個數越大,檢索的速度會越慢,誤判率也越小,反之,則誤判率越高。

從張圖我們可以觀察到相同位數組長度的情況下,隨著哈希函數的個人的增長,誤判率顯著的下降。

誤判率 p 的公式是

  1. k 次哈希函數某一 bit 位未被置為 1 的概率為

  2. 插入 n 個元素後某一 bit 位依舊為 0 的概率為

  3. 那麼插入 n 個元素後某一 bit 位置為1的概率為

  4. 整體誤判率為 ,當 m 足夠大時,誤判率會越小,該公式約等於

我們會預估布隆過濾器的誤判率 p 以及待插入的元素個數 n 分別推導出最合適的位數組長度 m 和 哈希函數個數 k。

▍ 布隆過濾器支持刪除嗎

布隆過濾器其實並不支持刪除元素,因為多個元素可能哈希到一個布隆過濾器的同一個位置,如果直接刪除該位置的元素,則會影響其他元素的判斷。

▍ 時間和空間效率

布隆過濾器的空間複雜度為 O(m) ,插入和查詢時間複雜度都是 O(k) 。 存儲空間和插入、查詢時間都不會隨元素增加而增大。 空間、時間效率都很高。

▍哈希函數類型

Murmur3,FNV 系列和 Jenkins 等非密碼學哈希函數適合,因為 Murmur3 演算法簡單,能夠平衡好速度和隨機分佈,很多開源產品經常選用它作為哈希函數。

3 Guava實現

Google Guava是 Google 開發和維護的開源 Java開發庫,它包含許多基本的工具類,例如字元串處理、集合、併發工具、I/O和數學函數等等。

1、添加Maven依賴

<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>31.0.1-jre<</version>
</dependency>

2、創建布隆過濾器

BloomFilter<Integer> filter = BloomFilter.create(
  //Funnel 是一個介面,用於將任意類型的對象轉換為位元組流,
  //以便用於布隆過濾器的哈希計算。
  Funnels.integerFunnel(), 
  10000, 	// 插入數據條目數量
  0.001 	// 誤判率
);

3、添加數據

@PostConstruct
public void addProduct() {
    logger.info("初始化布隆過濾器數據開始");
    //插入4個元素
     filter.put(1L);
     filter.put(2L);
     filter.put(3L);
     filter.put(4L);
     logger.info("初始化布隆過濾器數據結束");
}

4、判斷數據是否存在

public boolean maycontain(Long id) {
    return filter.mightContain(id);
}

接下來,我們查看 Guava 源碼中布隆過濾器是如何實現的 ?

static <T> BloomFilter<T> create(Funnel<? super T> funnel, long expectedInsertions, double fpp, BloomFilter.Strategy strategy) {
    // 省略部分前置驗證代碼 
    // 位數組長度
    long numBits = optimalNumOfBits(expectedInsertions, fpp);
    // 哈希函數次數
    int numHashFunctions = optimalNumOfHashFunctions(expectedInsertions, numBits);
    try {
      return new BloomFilter<T>(
                    new LockFreeBitArray(numBits), 
                    numHashFunctions, 
                    funnel,
                    strategy
      );
    } catch (IllegalArgumentException e) {
      throw new IllegalArgumentException("Could not create BloomFilter of " + numBits + " bits", e);
    }
}
//計算位數組長度
//n:插入的數據條目數量
//p:期望誤判率
@VisibleForTesting
static long optimalNumOfBits(long n, double p) {
   if (p == 0) {
     p = Double.MIN_VALUE;
   }
   return (long) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));
}

// 計算哈希次數
@VisibleForTesting
static int optimalNumOfHashFunctions(long n, long m) {
    // (m / n) * log(2), but avoid truncation due to division!
    return Math.max(1, (int) Math.round((double) m / n * Math.log(2)));
}

Guava 的計算位數組長度和哈希次數和原理解析這一節展示的公式保持一致。

重點來了,Bloom filter 是如何判斷元素存在的 ?

方法名就非常有 google 特色 , ”mightContain“ 的中文表意是:”可能存在“ 。方法的返回值為 true ,元素可能存在,但若返回值為 false ,元素必定不存在。

public <T extends @Nullable Object> boolean mightContain(
    @ParametricNullness T object,
    //Funnel 是一個介面,用於將任意類型的對象轉換為位元組流,
    //以便用於布隆過濾器的哈希計算。
    Funnel<? super T> funnel,  
    //用於計算哈希值的哈希函數的數量
    int numHashFunctions,
    //位數組實例,用於存儲布隆過濾器的位集
    LockFreeBitArray bits) {
  long bitSize = bits.bitSize();
  //使用 MurmurHash3 哈希函數計算對象 object 的哈希值,
  //並將其轉換為一個 byte 數組。
  byte[] bytes = Hashing.murmur3_128().hashObject(object, funnel).getBytesInternal();
  long hash1 = lowerEight(bytes);
  long hash2 = upperEight(bytes);

  long combinedHash = hash1;
  for (int i = 0; i < numHashFunctions; i++) {
    // Make the combined hash positive and indexable
    // 計算哈希值的索引,並從位數組中查找索引處的位。
    // 如果索引處的位為 0,表示對象不在布隆過濾器中,返回 false。
    if (!bits.get((combinedHash & Long.MAX_VALUE) % bitSize)) {
      return false;
    }
    // 將 hash2 加到 combinedHash 上,用於計算下一個哈希值的索引。
    combinedHash += hash2;
  }
  return true;
}

3 Redisson實現

Redisson 是一個用 Java 編寫的 Redis 客戶端,它實現了分散式對象和服務,包括集合、映射、鎖、隊列等。Redisson的API簡單易用,使得在分散式環境下使用Redis 更加容易和高效。

1、添加Maven依賴

<dependency>
   <groupId>org.redisson</groupId>
   <artifactId>redisson</artifactId>
   <version>3.16.1</version>
</dependency>

2、配置 Redisson 客戶端

@Configuration
public class RedissonConfig {

 Bean
 public RedissonClient redissonClient() {
    Config config = new Config();
    config.useSingleServer().setAddress("redis://localhost:6379");
    return Redisson.create(config);
 }
 
}

3、初始化

RBloomFilter<Long> bloomFilter = redissonClient.
                                      getBloomFilter("myBloomFilter");
//10000表示插入元素的個數,0.001表示誤判率
bloomFilter.tryInit(10000, 0.001);
//插入4個元素
bloomFilter.add(1L);
bloomFilter.add(2L);
bloomFilter.add(3L);
bloomFilter.add(4L);

4、判斷數據是否存在

public boolean mightcontain(Long id) {
    return bloomFilter.contains(id);
}

好,我們來從源碼分析 Redisson 布隆過濾器是如何實現的 ?

public boolean tryInit(long expectedInsertions, double falseProbability) {
    // 位數組大小
    size = optimalNumOfBits(expectedInsertions, falseProbability);
    // 哈希函數次數
    hashIterations = optimalNumOfHashFunctions(expectedInsertions, size);
    CommandBatchService executorService = new CommandBatchService(commandExecutor);
    // 執行 Lua腳本,生成配置
    executorService.evalReadAsync(configName, codec, RedisCommands.EVAL_VOID,
            "local size = redis.call('hget', KEYS[1], 'size');" +
                    "local hashIterations = redis.call('hget', KEYS[1], 'hashIterations');" +
                    "assert(size == false and hashIterations == false, 'Bloom filter config has been changed')",
                    Arrays.<Object>asList(configName), size, hashIterations);
    executorService.writeAsync(configName, StringCodec.INSTANCE,
                                            new RedisCommand<Void>("HMSET", new VoidReplayConvertor()), configName,
            "size", size, "hashIterations", hashIterations,
            "expectedInsertions", expectedInsertions, "falseProbability", BigDecimal.valueOf(falseProbability).toPlainString());
    try {
        executorService.execute();
    } catch (RedisException e) {
    }
    return true;
}

Bf配置信息

Redisson 布隆過濾器初始化的時候,會創建一個 Hash 數據結構的 key ,存儲布隆過濾器的4個核心屬性。

那麼 Redisson 布隆過濾器如何保存元素呢 ?

public boolean add(T object) {
    long[] hashes = hash(object);
    while (true) {
        int hashIterations = this.hashIterations;
        long size = this.size;
        long[] indexes = hash(hashes[0], hashes[1], hashIterations, size);
        CommandBatchService executorService = new CommandBatchService(commandExecutor);
        addConfigCheck(hashIterations, size, executorService);
        //創建 bitset 對象, 然後調用setAsync方法,該方法的參數是索引。
        RBitSetAsync bs = createBitSet(executorService);
        for (int i = 0; i < indexes.length; i++) {
            bs.setAsync(indexes[i]);
        }
        try {
            List<Boolean> result = (List<Boolean>) executorService.execute().getResponses();
            for (Boolean val : result.subList(1, result.size()-1)) {
                if (!val) {
                    return true;
                }
            }
            return false;
        } catch (RedisException e) {
        }
    }
}

從源碼中,我們發現 Redisson 布隆過濾器操作的對象是 點陣圖(bitMap)

在 Redis 中,點陣圖本質上是 string 數據類型,Redis 中一個字元串類型的值最多能存儲 512 MB 的內容,每個字元串由多個位元組組成,每個位元組又由 8 個 Bit 位組成。點陣圖結構正是使用“位”來實現存儲的,它通過將比特位設置為 0 或 1來達到數據存取的目的,它存儲上限為 2^32 ,我們可以使用getbit/setbit命令來處理這個位數組。

為了方便大家理解,我做了一個簡單的測試。

通過 Redisson API 創建 key 為 mybitset 的 點陣圖 ,設置索引 3 ,5,6,8 位為 1 ,右側的二進位值也完全匹配。

4 實戰要點

通過 Guava 和 Redisson 創建和使用布隆過濾器比較簡單,我們下麵討論實戰層面的註意事項。

1、緩存穿透場景

首先我們需要初始化布隆過濾器,然後當用戶請求時,判斷過濾器中是否包含該元素,若不包含該元素,則直接返回不存在。

若包含則從緩存中查詢數據,若緩存中也沒有,則查詢資料庫並回寫到緩存里,最後給前端返回。

2、元素刪除場景

現實場景,元素不僅僅是只有增加,還存在刪除元素的場景,比如說商品的刪除。

原理解析這一節,我們已經知曉:布隆過濾器其實並不支持刪除元素,因為多個元素可能哈希到一個布隆過濾器的同一個位置,如果直接刪除該位置的元素,則會影響其他元素的判斷

我們有兩種方案:

▍計數布隆過濾器

計數過濾器(Counting Bloom Filter)是布隆過濾器的擴展,標準 Bloom Filter 位數組的每一位擴展為一個小的計數器(Counter),在插入元素時給對應的 k (k 為哈希函數個數)個 Counter 的值分別加 1,刪除元素時給對應的 k 個 Counter 的值分別減 1。

雖然計數布隆過濾器可以解決布隆過濾器無法刪除元素的問題,但是又引入了另一個問題:“更多的資源占用,而且在很多時候會造成極大的空間浪費”。

▍ 定時重新構建布隆過濾器

從工程角度來看,定時重新構建布隆過濾器這個方案可行也可靠,同時也相對簡單。

  1. 定時任務觸發全量商品查詢 ;
  2. 將商品編號添加到新的布隆過濾器 ;
  3. 任務完成,修改商品布隆過濾器的映射(從舊 A 修改成 新 B );
  4. 商品服務根據布隆過濾器的映射,選擇新的布隆過濾器 B進行相關的查詢操作 ;
  5. 選擇合適的時間點,刪除舊的布隆過濾器 A。

5 總結

布隆過濾器是一個很長的二進位向量和一系列隨機映射函數,用於檢索一個元素是否在一個集合中

它的空間效率查詢時間遠遠超過一般的演算法,但是有一定的誤判率 (函數返回 true , 意味著元素可能存在,函數返回 false ,元素必定不存在)。

布隆過濾器的四個核心屬性:

  • k : 哈希函數個數

  • m : 位數組長度

  • n : 插入的元素個數

  • p : 誤判率

Java 世界里 ,通過 Guava 和 Redisson 創建和使用布隆過濾器非常簡單。

布隆過濾器無法刪除元素,但我們可以通過計數布隆過濾器定時重新構建布隆過濾器兩種方案實現刪除元素的效果。

為什麼這麼多的開源項目中使用布隆過濾器 ?

因為它的設計精巧且簡潔,工程上實現非常容易,效能高,雖然有一定的誤判率,但軟體設計不就是要 trade off 嗎 ?


參考資料:

https://hackernoon.com/probabilistic-data-structures-bloom-filter-5374112a7832

如果我的文章對你有所幫助,還請幫忙點贊、在看、轉發一下,你的支持會激勵我輸出更高質量的文章,非常感謝!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 有一朋友想把網頁內容變成PDF下載下來。問我有沒有好辦法。 這還真巧了,咱公司也有這個需求,就是網頁生成合同,然後可以直接列印合同內容。最早吧,就是可以直接列印就好了。 當時為解決完美列印的問題,挺費勁的,當時第三方插件還有BUG(當然把解決放給發給作者了,作者早已經修複了),正經反覆折騰了好一陣子 ...
  • 這裡給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 Vue.js是一個基於組件化和響應式數據流的前端框架。當我們在Vue中編寫模板代碼時,它會被Vue編譯器處理並轉換為可被瀏覽器解析的JavaScript代碼。Vue中的模板實際上是HTML標記和Vue指令的組合,它們會被Vue編譯器處理並 ...
  • <!-- 封裝的模板下載和導入按鈕和功能組件--> <template> <span style="margin-left: 10px"> <el-button size="mini" class="el-icon-download" @click="downFiles"> 下載模板</el-but ...
  • 前言 前端開發者若要進行後端開發,大多都會選擇node.js,在node生態下是有大量框架的,其中最受新手喜愛的便是老牌的express.js,接下來我們就從零創建一個express項目。 安裝node 在這裡:https://nodejs.org/dist/v16.14.0/node-v16.14 ...
  • 作者羅錦華,API7.ai 技術專家/技術工程師,開源項目 pgcat,lua-resty-ffi,lua-resty-inspect 的作者。 原文鏈接 為什麼需要 Lua 動態調試插件? Apache APISIX 有很多 Lua 代碼,如何在運行時不觸碰源代碼的情況下,檢查代碼裡面的變數值? ...
  • 和女朋友坐一塊的時候,突然想到了,哈哈哈哈哈 不會很難!!! import java.util.*; import java.lang.Math; // 註意類名必須為 Main, 不要有任何 package xxx 信息 public class Main { public static void ...
  • Flask-SQLAlchemy MySQL是免費開源軟體,大家可以自行搜索其官網(https://www.MySQL.com/downloads/) 測試MySQL是否安裝成功 在所有程式中,找到MySQL→MySQL Server 5.6下麵的命令行工具,然後單擊輸入密碼後回車,就可以知道MyS ...
  • 前言 在上一篇文章中,我們介紹了~運算符的高級用法,本篇文章,我們將介紹<< 運算符的一些高級用法。 一、人物簡介 第一位閃亮登場,有請今後會一直教我們C語言的老師 —— 自在。 第二位上場的是和我們一起學習的小白程式猿 —— 逍遙。 二、計算2的整數次冪 代碼示例 #include <stdio. ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...