如何用 30s 給面試官講清楚跳錶

来源:https://www.cnblogs.com/cswiki/archive/2022/12/15/16984525.html
-Advertisement-
Play Games

查找 假設有如下這樣一個有序鏈表: 想要查找 24、43、59,按照順序遍歷,分別需要比較的次數為 2、4、6 目前查找的時間複雜度是 O(N),如何提高查找效率? 很容易想到二分查找,將查找的時間複雜度降到 O(LogN) 具體來說,我們把鏈表中的一些節點提取出來,作為索引,類似於二叉搜索樹,得到 ...


查找

假設有如下這樣一個有序鏈表:

想要查找 24、43、59,按照順序遍歷,分別需要比較的次數為 2、4、6

目前查找的時間複雜度是 O(N),如何提高查找效率?

很容易想到二分查找,將查找的時間複雜度降到 O(LogN)

具體來說,我們把鏈表中的一些節點提取出來,作為索引,類似於二叉搜索樹,得到如下結構:

這裡我們把 10、30、50、80 提取出來作為一級索引,這樣搜索的時候就可以使用二分查找來減少比較次數了。

我們還可以再從一級索引提取一些元素出來,作為二級索引,變成如下結構:

比如如果想要查找 59,那麼搜索路徑就是下麵這樣的:

回顧下鏈表的定義:

class ListNode {
    private int val;
	private ListNode next;
    
    public ListNode(int val) {
        this.val = val;
        this.next = null;
    }
}

我們在每一個節點的基礎上添加一個 down 指針,用來指向下一層的節點

class Node {
    private int val;
	private ListNode next;
    private ListNode down;
    
    public ListNode(int val) {
        this.val = val;
        this.next = null;
        this.down = null;
    }
}

這樣,一個最簡單的跳錶節點就定義出來了。

我們這裡說的只是最簡單的實現,像比如 Redis 的跳錶實現和我們說的還是有所不同的,當然了,思想都是一致的

所以跳錶是什麼?簡單來說,跳錶就是支持二分查找的有序鏈表

具體的搜索演算法如下:

/* 如果存在 x, 返回 x 所在的節點, 否則返回 x 的後繼節點 */  
private Node find(x)  {  
    p = top;  
    while (true) {  
        while (p.next.val < x){
            p = p.next;
        }
        if (p.down == null){
            return p.next;  
        }
        p = p.down;  
    }
    return null;
}

插入

關於插入,大家可能很容易想到往最下麵一層的有序鏈表中添加數據,但是索引該咋辦?索引要不要更新呢?

如果不更新索引,就可能出現兩個索引節點之間數據非常多的情況,極端情況下跳錶就會退化為單鏈表,從而使得查找效率從 O(LogN) 退化為 O(N)。

所以,我們在插入數據的時候,索引節點也需要相應的改變來避免查找效率的退化

比較容易想到的做法就是完全重建索引,我們每次插入數據後,都把這個跳錶的索引刪掉全部重建。因為索引的空間複雜度是 O(N),即:索引節點的個數是 O(N) 級別,每次完全重新建一個 O(N) 級別的索引,時間複雜度也是 O(N) 。造成的後果是:為了維護索引,導致每次插入數據的時間複雜度變成了 O(N)。

那有沒有其他效率比較高的方式來維護索引呢?

最理想的索引就是在原始鏈表中每隔一個元素抽取一個元素做為一級索引。換種說法,我們在原始鏈表中【隨機】的選 n/2 個元素做為一級索引是不是也能通過索引提高查找的效率呢?

當然可以,因為一般隨機選的元素相對來說都是比較均勻的。如下圖所示,隨機選擇了 n/2 個元素做為一級索引,雖然不是每隔一個元素抽取一個,但是對於查找效率來講,影響不大,比如我們想找元素 16,仍然可以通過一級索引,使得遍歷路徑較少了將近一半。

當然了,如果抽取的一級索引的元素恰好是前一半的元素 1、3、4、5、7、8,那麼查找效率確實沒有提升,但是這樣的概率太小了。所以我們可以認為:當原始鏈表中元素數量足夠大,且抽取足夠隨機的話,我們得到的索引是均勻的。所以,我們可以維護一個這樣的索引:隨機選 n/2 個元素做為一級索引、隨機選 n/4 個元素做為二級索引、隨機選 n/8 個元素做為三級索引,依次類推,一直到最頂層索引。這裡每層索引的元素個數已經確定,且每層索引元素選取的足夠隨機,所以可以通過索引來提升跳錶的查找效率。

那代碼具體該如何實現,使得在每次新插入元素的時候,儘量讓該元素有 1/2 的幾率建立一級索引、1/4 的幾率建立二級索引、1/8 的幾率建立三級索引....呢?

其實很簡單啦,搞一個概率演算法就行了(具體是怎麼個概率法這裡就不詳細解釋了),當每次有數據要插入時,先通過概率演算法告訴我們這個元素需要插入到幾級索引中,然後開始維護索引並把數據插入到原始鏈表中。

如下所示,插入新元素 12,假設概率演算法返回的結果是 4,表示新元素需要插入到 4 級索引中,同時,我們還需要建立 3 級索引、2 級索引和 1 級索引(也就是原始有序鏈表)

那插入數據時維護索引的時間複雜度是多少呢?

跳錶中,每一層索引都是一個有序的單鏈表,元素插入到單鏈表的時間複雜度為 O(1),我們索引的高度最多為 LogN,當插入一個元素 x 時,最壞的情況就是元素 x 需要插入到每層索引中,所以插入數據的最壞時間複雜度是 O(LogN),最好的時間複雜度是 O(1)。

刪除

跳錶刪除數據時,要把索引中對應節點也要刪掉。如下圖所示,如果要刪除元素 8,需要把原始鏈表中的 8 和第 2、3 級索引的 8 都刪除掉。

刪除元素的過程跟查找元素的過程類似,只不過在查找的路徑上如果發現了要刪除的元素 x,則執行刪除操作。

跳錶中,每一層索引都是一個有序的單鏈表,單鏈表刪除元素的時間複雜度為 O(1),最多需要刪除 LogN 個元素(索引層數為 LogN),所以刪除元素的總時間包 = 查找元素的時間 + 刪除 LogN 個元素的時間 = O(LogN ) + O(LogN ) = 2O(LogN ),忽略常數部分,刪除元素的時間複雜度為 O(LogN)。

小伙伴們大家好呀,本文首發於公眾號@飛天小牛肉,阿裡雲 & InfoQ 簽約作者,分享大廠面試原創高質量題解、原創技術幹活和成長經驗~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • data analysis 什麼是數據分析 是把隱藏在一些看似雜亂無章的數據背後的信息提煉出來,總結出所研究對象的內在規律 使得數據的價值最大化 分析用戶的消費行為 制定促銷活動的方案 制定促銷時間和粒度 計算用戶的活躍度 分析產品的回購力度 分析廣告點擊率 決定投放時間 制定廣告定向人群方案 決定 ...
  • LVS 負載均衡 本篇主要介紹一下 lvs 是什麼 以及它的 nat 模式的搭建 配合nginx來演示 1.概述 LVS 是 Linux Virtual Server 的簡寫 (Linux 虛擬伺服器 ), 是由章文嵩博士主導, 它虛擬出一個伺服器集群,然後進行負載均衡的項目, 目前LVS 已經被集 ...
  • Linux常用命令 1、 關機/重啟/註銷 | 常用命令 | 作用 | | | | | shutdown -h now | 即刻關機 | | shutdown -h 10 | 10分鐘後關機 | | shutdown -h 11:00 | 11:00關機 | | shutdown -h +10 | ...
  • 最近在複習以前學習的python爬蟲內容,就拿微博來練了一下手,這個案例適合學習爬蟲到中後期的小伙伴,因為他不是特別簡單也不是很難,關鍵是思路,為什麼說不是很難呢?因為還沒涉及到js逆向,好了話不多說開乾。 (1)找到要爬取的頁面,如下: (2)點開評論,拉到最下方,如下位置: 點擊“點擊查看”進入 ...
  • 來源:developer.aliyun.com/article/889271 本文準備圍繞七個點來講網關,分別是網關的基本概念、網關設計思路、網關設計重點、流量網關、業務網關、常見網關對比,對基礎概念熟悉的朋友可以根據目錄查看自己感興趣的部分。 什麼是網關 網關,很多地方將網關比如成門, 沒什麼問題 ...
  • 無論是要交給程式處理的數據,還是控制腳本的簡單命令,都少不了輸入和輸出。程式要做的第一件事就是處理如同一陰一陽的“輸入與輸出”。 1 、從文件獲取輸入 當我們希望向文件輸出內容時,我們可以通過符號 > 或 >> 實現。而用代表輸入重定向的符號 < 可以從文件中讀取數據,如下: $ wc < my.f ...
  • 作者:張富春(ahfuzhang),轉載時請註明作者和引用鏈接,謝謝! cnblogs博客 zhihu Github 公眾號:一本正經的瞎扯 我在多進程插件框架 hashicorp/go-plugin 的基礎上,使用 protoreflect 來解析 proto3 語法的IDL文件,通過命令行工具自 ...
  • 解決問題 在SpringBoot項目中,如何集成Karate測試框架和Jacoco插件。以及編寫了feature測試文件,怎麼樣配置才能看到被測試介面代碼的覆蓋率。 演示版本及說明 本次講解,基於SpringBoot2.1.4.RELEASE版本,可根據項目版本靈活更改。下麵所有的版本號,可以自行選 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...