拼夕夕二面:說說布隆過濾器與布穀鳥過濾器?應用場景?我懵了。。

来源:https://www.cnblogs.com/javastack/archive/2022/07/03/16439957.html
-Advertisement-
Play Games

來源:www.cnblogs.com/Courage129/p/14337466.html 大家都知道,在電腦中,IO一直是一個瓶頸,很多框架以及技術甚至硬體都是為了降低IO操作而生,今天聊一聊過濾器,先說一個場景: 我們業務後端涉及資料庫,當請求消息查詢某些信息時,可能先檢查緩存中是否有相關信息 ...


來源:www.cnblogs.com/Courage129/p/14337466.html

大家都知道,在電腦中,IO一直是一個瓶頸,很多框架以及技術甚至硬體都是為了降低IO操作而生,今天聊一聊過濾器,先說一個場景:

我們業務後端涉及資料庫,當請求消息查詢某些信息時,可能先檢查緩存中是否有相關信息,有的話返回,如果沒有的話可能就要去資料庫裡面查詢,這時候有一個問題,如果很多請求是在請求資料庫根本不存在的數據,那麼資料庫就要頻繁響應這種不必要的IO查詢,如果再多一些,資料庫大多數IO都在響應這種毫無意義的請求操作,那麼如何將這些請求阻擋在外呢?過濾器由此誕生:

布隆過濾器


布隆過濾器(Bloom Filter)大概的思路就是,當你請求的信息來的時候,先檢查一下你查詢的數據我這有沒有,有的話將請求壓給資料庫,沒有的話直接返回,是如何做到的呢?

如圖,一個bitmap用於記錄,bitmap原始數值全都是0,當一個數據存進來的時候,用三個Hash函數分別計算三次Hash值,並且將bitmap對應的位置設置為1,上圖中,bitmap 的1,3,6位置被標記為1,這時候如果一個數據請求過來,依然用之前的三個Hash函數計算Hash值,如果是同一個數據的話,勢必依舊是映射到1,3,6位,那麼就可以判斷這個數據之前存儲過,如果新的數據映射的三個位置,有一個匹配不上,假如映射到1,3,7位,由於7位是0,也就是這個數據之前並沒有加入進資料庫,所以直接返回。

布隆過濾器的問題

上面這種方式,應該你已經發現了,布隆過濾器存在一些問題:

第一方面,布隆過濾器可能誤判:

假如有這麼一個情景,放入數據包1時,將bitmap的1,3,6位設置為了1,放入數據包2時將bitmap的3,6,7位設置為了1,此時一個並沒有存過的數據包請求3,做三次哈希之後,對應的bitmap位點分別是1,6,7,這個數據之前並沒有存進去過,但是由於數據包1和2存入時將對應的點設置為了1,所以請求3也會壓倒資料庫上,這種情況,會隨著存入的數據增加而增加。

第二方面,布隆過濾器沒法刪除數據,刪除數據存在以下兩種困境:

一是,由於有誤判的可能,並不確定數據是否存在資料庫里,例如數據包3。

二是,當你刪除某一個數據包對應點陣圖上的標誌後,可能影響其他的數據包,例如上面例子中,如果刪除數據包1,也就意味著會將bitmap1,3,6位設置為0,此時數據包2來請求時,會顯示不存在,因為3,6兩位已經被設置為0。

布隆過濾器增強版


為瞭解決上面布隆過濾器的問題,出現了一個增強版的布隆過濾器(Counting Bloom Filter),這個過濾器的思路是將布隆過濾器的bitmap更換成數組,當數組某位置被映射一次時就+1,當刪除時就-1,這樣就避免了普通布隆過濾器刪除數據後需要重新計算其餘數據包Hash的問題,但是依舊沒法避免誤判。

布穀鳥過濾器


為瞭解決布隆過濾器不能刪除元素的問題, 論文《Cuckoo Filter:Better Than Bloom》作者提出了布穀鳥過濾器。相比布穀鳥過濾器,布隆過濾器有以下不足:查詢性能弱、空間利用效率低、不支持反向操作(刪除)以及不支持計數。

查詢性能弱是因為布隆過濾器需要使用多個 hash 函數探測點陣圖中多個不同的位點,這些位點在記憶體上跨度很大,會導致 CPU 緩存行命中率低。

空間效率低是因為在相同的誤判率下,布穀鳥過濾器的空間利用率要明顯高於布隆,空間上大概能節省 40% 多。不過布隆過濾器並沒有要求點陣圖的長度必須是 2 的指數,而布穀鳥過濾器必須有這個要求。從這一點出發,似乎布隆過濾器的空間伸縮性更強一些。

不支持反向刪除操作這個問題著實是擊中了布隆過濾器的軟肋。在一個動態的系統裡面元素總是不斷的來也是不斷的走。布隆過濾器就好比是印跡,來過來就會有痕跡,就算走了也無法清理乾凈。比如你的系統里本來只留下 1kw 個元素,但是整體上來過了上億的流水元素,布隆過濾器很無奈,它會將這些流失的元素的印跡也會永遠存放在那裡。隨著時間的流失,這個過濾器會越來越擁擠,直到有一天你發現它的誤判率太高了,不得不進行重建。

布穀鳥過濾器在論文里聲稱自己解決了這個問題,它可以有效支持反向刪除操作。而且將它作為一個重要的賣點,誘惑你們放棄布隆過濾器改用布穀鳥過濾器。

為啥要取名布穀鳥呢?

有個成語,「鳩占鵲巢」,布穀鳥也是,布穀鳥從來不自己築巢。它將自己的蛋產在別人的巢里,讓別人來幫忙孵化。待小布穀鳥破殼而出之後,因為布穀鳥的體型相對較大,它又將養母的其它孩子(還是蛋)從巢里擠走 —— 從高空摔下夭折了。

布穀鳥哈希


最簡單的布穀鳥哈希結構是一維數組結構,會有兩個 hash 演算法將新來的元素映射到數組的兩個位置。如果兩個位置中有一個位置為空,那麼就可以將元素直接放進去。但是如果這兩個位置都滿了,它就不得不「鳩占鵲巢」,隨機踢走一個,然後自己霸占了這個位置。

p1 = hash1(x) % l
p2 = hash2(x) % l
複製代碼

不同於布穀鳥的是,布穀鳥哈希演算法會幫這些受害者(被擠走的蛋)尋找其它的窩。因為每一個元素都可以放在兩個位置,只要任意一個有空位置,就可以塞進去。所以這個傷心的被擠走的蛋會看看自己的另一個位置有沒有空,如果空了,自己挪過去也就皆大歡喜了。但是如果這個位置也被別人占了呢?好,那麼它會再來一次「鳩占鵲巢」,將受害者的角色轉嫁給別人。然後這個新的受害者還會重覆這個過程直到所有的蛋都找到了自己的巢為止。

布穀鳥哈希的問題


但是會遇到一個問題,那就是如果數組太擁擠了,連續踢來踢去幾百次還沒有停下來,這時候會嚴重影響插入效率。這時候布穀鳥哈希會設置一個閾值,當連續占巢行為超出了某個閾值,就認為這個數組已經幾乎滿了。這時候就需要對它進行擴容,重新放置所有元素。

還會有另一個問題,那就是可能會存在擠兌迴圈。比如兩個不同的元素,hash 之後的兩個位置正好相同,這時候它們一人一個位置沒有問題。但是這時候來了第三個元素,它 hash 之後的位置也和它們一樣,很明顯,這時候會出現擠兌的迴圈。不過讓三個不同的元素經過兩次 hash 後位置還一樣,這樣的概率並不是很高,除非你的 hash 演算法太挫了。

布穀鳥哈希演算法對待這種擠兌迴圈的態度就是認為數組太擁擠了,需要擴容(實際上並不是這樣)。

優化

上面的布穀鳥哈希演算法的平均空間利用率並不高,大概只有 50%。到了這個百分比,就會很快出現連續擠兌次數超出閾值。這樣的哈希演算法價值並不明顯,所以需要對它進行改良。

改良的方案之一是增加 hash 函數,讓每個元素不止有兩個巢,而是三個巢、四個巢。這樣可以大大降低碰撞的概率,將空間利用率提高到 95%左右。

另一個改良方案是在數組的每個位置上掛上多個座位,這樣即使兩個元素被 hash 在了同一個位置,也不必立即「鳩占鵲巢」,因為這裡有多個座位,你可以隨意坐一個。除非這多個座位都被占了,才需要進行擠兌。很明顯這也會顯著降低擠兌次數。這種方案的空間利用率只有 85%左右,但是查詢效率會很高,同一個位置上的多個座位在記憶體空間上是連續的,可以有效利用 CPU 高速緩存。

所以更加高效的方案是將上面的兩個改良方案融合起來,比如使用 4 個 hash 函數,每個位置上放 2 個座位。這樣既可以得到時間效率,又可以得到空間效率。這樣的組合甚至可以將空間利用率提到高 99%,這是非常了不起的空間效率。

布穀鳥過濾器


布穀鳥過濾器和布穀鳥哈希結構一樣,它也是一維數組,但是不同於布穀鳥哈希的是,布穀鳥哈希會存儲整個元素,而布穀鳥過濾器中只會存儲元素的指紋信息(幾個bit,類似於布隆過濾器)。這裡過濾器犧牲了數據的精確性換取了空間效率。正是因為存儲的是元素的指紋信息,所以會存在誤判率,這點和布隆過濾器如出一轍。

首先布穀鳥過濾器還是只會選用兩個 hash 函數,但是每個位置可以放置多個座位。這兩個 hash 函數選擇的比較特殊,因為過濾器中只能存儲指紋信息。當這個位置上的指紋被擠兌之後,它需要計算出另一個對偶位置。而計算這個對偶位置是需要元素本身的,我們來回憶一下前面的哈希位置計算公式。

fp = fingerprint(x)
p1 = hash1(x) % l
p2 = hash2(x) % l

我們知道了 p1 和 x 的指紋,是沒辦法直接計算出 p2 的。

特殊的 hash 函數

布穀鳥過濾器巧妙的地方就在於設計了一個獨特的 hash 函數,使得可以根據 p1 和 元素指紋 直接計算出 p2,而不需要完整的 x 元素。

fp = fingerprint(x)
p1 = hash(x)
p2 = p1 ^ hash(fp)  // 異或

從上面的公式中可以看出,當我們知道 fp 和 p1,就可以直接算出 p2。同樣如果我們知道 p2 和 fp,也可以直接算出 p1 —— 對偶性。

p1 = p2 ^ hash(fp)

所以我們根本不需要知道當前的位置是 p1 還是 p2,只需要將當前的位置和 hash(fp) 進行異或計算就可以得到對偶位置。而且只需要確保 hash(fp) != 0 就可以確保 p1 != p2,如此就不會出現自己踢自己導致死迴圈的問題。

也許你會問為什麼這裡的 hash 函數不需要對數組的長度取模呢?實際上是需要的,但是布穀鳥過濾器強制數組的長度必須是 2 的指數,所以對數組的長度取模等價於取 hash 值的最後 n 位。在進行異或運算時,忽略掉低 n 位 之外的其它位就行。將計算出來的位置 p 保留低 n 位就是最終的對偶位置。

近期熱文推薦:

1.1,000+ 道 Java面試題及答案整理(2022最新版)

2.勁爆!Java 協程要來了。。。

3.Spring Boot 2.x 教程,太全了!

4.別再寫滿屏的爆爆爆炸類了,試試裝飾器模式,這才是優雅的方式!!

5.《Java開發手冊(嵩山版)》最新發佈,速速下載!

覺得不錯,別忘了隨手點贊+轉發哦!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本文介紹了Netty對各種IO模型的支持以及如何輕鬆切換各種IO模型。還花了大量的篇幅介紹Netty服務端的核心引擎主從Reactor線程組的創建過程。在這個過程中,我們還提到了Netty對各種細節進行的優化,展現了Netty對性能極致的追求。 ...
  • 記憶體分析器 (MAT) 1. 記憶體分析器 (MAT) 1.1 MAT介紹 MAT是Memory Analyzer tool的縮寫。指分析工具。 1.2 MAT作用 Eclipse Memory Analyzer 是一種快速且功能豐富的Java 堆分析器,可幫助您發現記憶體泄漏並減少記憶體消耗。 使用記憶體 ...
  • 編程中一直對這兩個概念不是很理解,在網上搜了很多資料大概描述的其實都很模糊,有時候還自相矛盾,很容易搞混,這裡說一下我對這兩個概念的理解。 首先看一下相關技術書籍對這兩個概念的描述,下麵分別是摘自《深入理解Java核心技術》和《Java併發程式設計中的》的內容。 摘自《深入理解Java核心技術》14 ...
  • 題目鏈接:P2680 [NOIP2015 提高組] 運輸計劃 - 洛谷 | 電腦科學教育新生態 (luogu.com.cn) 看了好長時間題解才終於懂的,有關lca和二分答案的題解解釋的不詳細,一時半會理解不過來,於是自己寫一篇解釋儘管解釋主要在代碼中,希望能對迷茫的小伙伴有幫助 解析(主要為二分 ...
  • 通常在業務體系中,都會或多或少的涉及到支付相關的功能;對於一些經驗欠缺同學來說,最緊張的就是面對這類支付結算的邏輯,因為流程中的任何細節問題,都可能引發對賬異常的情況;錯誤發生之後,再想去修複流程,花費的時間成本又是高昂的,還牽扯錯誤數據的調平問題,最終很可能引發亂賬算不清的結果,然後需要人工介入手... ...
  • ArrayList分析3 : 刪除元素 轉載請註明出處:https://www.cnblogs.com/funnyzpc/p/16421743.html 對於集合類刪除元素是常有的需求,非常常見;如果是慣常的刪除方式就沒有寫本篇博客的必要了,本篇博客不光分析刪除可能導致的問題,也會從源碼層面分析為何 ...
  • 原文地址: Kotlin學習快速入門(7)——擴展的妙用 - Stars-One的雜貨小窩 之前也模模糊糊地在用這個功能,也是十分方便,可以不用繼承,快速給某個類增加新的方法,本篇便是來講解下Kotlin中擴展這一概念的使用 說明 先解釋一下,擴展的說明,官方文檔上解釋: Kotlin 能夠擴展一個 ...
  • 容器的基本用法 熟悉 Spring 的朋友應該都很瞭解下段代碼: public void testBeanFactory() { BeanFactory bf = new XmlBeanFactory(new ClassPathResource("beanFactoryTest.xml")); Te ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...