面試題:求第K大元素(topK)?

来源:https://www.cnblogs.com/9dragon/archive/2019/04/26/10777017.html
-Advertisement-
Play Games

一、引言二、普通演算法演算法A:演算法B:三、較好演算法演算法C:演算法D:四、總結 一、引言 ​ 這就是類似求Top(K)問題,什麼意思呢?怎麼在無序數組中找到第幾(K)大元素?我們這裡不考慮海量數據,能裝入記憶體。 二、普通演算法 演算法A: 將數組中的元素升序排序,找到數組下標k 1的元素即可。這是大家最容易想 ...


一、引言二、普通演算法演算法A:演算法B:三、較好演算法演算法C:演算法D:四、總結

一、引言

​ 這就是類似求Top(K)問題,什麼意思呢?怎麼在無序數組中找到第幾(K)大元素?我們這裡不考慮海量數據,能裝入記憶體。

二、普通演算法

演算法A:

將數組中的元素升序排序,找到數組下標k-1的元素即可。這是大家最容易想到的方法,如果使用簡單排序演算法,時間複雜度為O(n^2)。

演算法B:

  1. 第一步:初始化長度為K的一個數組,先讀入K個元素,將元素降序排序(升序也可以),這時候第K大元素就在最後一個。
  2. 第二步:讀入下一個元素就與已排序的第K大元素比較,如果大於,則將當前的第K大元素刪掉,並將此元素放到前K-1個正確的位置上(這裡就是簡單的插入排序了。不瞭解插入排序的朋友可以看這裡圖解選擇排序與插入排序)。
  3. 時間複雜度:第一步採用普通排序演算法時間複雜度是O(k^2);第二步:(N-k)*(k-1) = Nk-k^2+k。所以演算法B的時間複雜度為O(NK)當k=N/2(向下取整)時,時間複雜度還是O(n^2)。

其實求第K大問題,也可以求反,即求第N-k+1小問題。這是等價的。所以當K=N/2時,是最難的地方,但也很有趣,這時候的K對應的值就是中位數。

三、較好演算法

演算法C:

  1. 演算法思想:將數據讀入一個數組,對數組進行buildHeap(我們這裡構建大頂堆),之後對堆進行K次deleteMax操作,第K次的結果就是我們需要的值。(因為是大頂堆,所以數據從大到小排了序,堆排序以後會詳細說)。

  2. 現在我們來解決上節遺留的問題,為什麼buildHeap是線性的?不熟悉堆的可以看一下 圖解優先隊列(堆)。我們先來看看代碼實現。

    public PriorityQueue(T[] items) {
           //當前堆中的元素個數
           currentSize = items.length;
           //可自行實現聲明
           array = (T[]) new Comparable[currentSize +1];
           int i = 1;
           for (T item : items){
               array[i++] = item;
           }
           buildHeap();
       }

    private void buildHeap() {
           for (int i = currentSize / 2; i > 0; i--){
               //堆的下濾方法,可參考上面的鏈接
               percolateDown(i);
           }
       }

圖中初始化的是一顆無序樹,經過7次percolateDown後,得到一個大頂堆。從圖中可以看到,共有9條虛線,每一條對應於2次比較,總共18次比較。為了確定buildHeap的時間界,我們需要統計虛線的條數,這可以通過計算堆中所有節點的高度和得到,它是虛線的最大條數。該和是O(N)。

定理:包含2h+1-1個節點、高為h的理想二叉樹(滿二叉樹)的節點的高度的和是2h+1-1-(h+1)。

  1. 什麼叫滿二叉樹?滿二叉樹是完全填滿的二叉樹,最後一層都是填滿的,如圖中所示。完全二叉樹,是除最後一層以外都是填滿的,最後一層外也必須從左到右依次填入,就是上一篇中說的堆的結構。滿二叉樹一定是完全二叉樹,完全二叉樹不一定是滿二叉樹。

  2. 證明定理:

    容易看出,滿二叉樹中,高度為h上,有1個節點;高度h-1上2個節點,高度h-2上有2^2個節點及一般在高度h-i上的2i個節點組成。

方程兩邊乘以2得到:

兩式相減得到:

所以定理得證。因為堆由完全二叉樹構成,所以堆的節點數在2h和2h+1之間,所以意味著這個和是O(N)。所以buildHeap是線性的。所以演算法C的時間複雜度是:初始化數組為O(N),buildHeap為O(N),K次deleeMax需要O(klogN),所以總的時間複雜度是:O(N+N+klogN)=O(N+klogN)如果K為N/2時,運行時間是O(NlogN)

演算法D:

  1. 演算法思想:我們採用演算法B的思想,只是我們這裡構建一個節點數為K的小頂堆,只要下一個數比根節點大,就刪除根節點,並將這個數進行下濾操作。所以演算法最終的第K大數就是根節點的數。
  2. 時間複雜度:對K個數進行buildHeap是O(k),最壞情況下假設剩下的N-k個數都要進入堆中進行下濾操作,總的需要O(k+(N-k)logk)。如果K為N/2,則需要O(NlogN)。

四、總結

本篇詳述了 求top(K)問題的幾種解法,前兩種十分平凡普通,後兩種比較優一點,暫時給出求解中位數需要O(NlogN)時間。以後還會介紹更優的方式,可以以平均時間O(N)解決這個問題。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • [TOC] 文章代碼及地址: "https://github.com/codeEngraver/java technology stack/tree/master/%E5%B9%B6%E5%8F%91%E7%BC%96%E7%A8%8B" 如果覺得不錯的可以給個star,整理不易。謝謝謝,持續更新技 ...
  • 先看一段推理<*一切都是在8個比特位的前提下,討論二進位的符號位,溢出等等,才有意義*> +124:0111 1100 -124:1000 0100 +125:0111 1101 -125:1000 0011 +126:0111 1110 -126:1000 0010 +127:0111 1111 ...
  • 一、HTML傳值/PHP接收方法 1、GET(地址欄+問號+數據信息) (1)方式一:表單Form: method = 'get' GET接收數據方式: $_GET[‘表單元素name對應的值] (2)方式二:鏈接方式 註意每個數據用 “&” 分開,地址欄中 “=” 不能左右不能有空格 2、POST ...
  • 定義 自己總結:就相當於現實中各種用途的工具,有著對數據進行各種處理的功能(實質就是比較複雜的變數?!) 分類 自定義函數和Python語言已經定義過的常用的內置函數 自定義函數的組成部分 自己理解: ①def:是內置函數名(保留標識符),用於自定義一個自定義函數,實現需要內置函數沒有的功能 ②函數 ...
  • 1. WebSocket 是什麼? WebSocket允許伺服器「主動」給瀏覽器發消息。 2. 為什麼要用 WebSocket 實時獲取服務端數據這種需求,在使用 WebSocket 之前也是可以做到的,主要方式就是輪詢。比如 javascript上一個定時器,每隔幾秒鐘向服務端發送消息詢問最新價格 ...
  • If you don't look back, you'll never know I waiting for you behind you. Java對字元串加密並返回星號※ PasswordUtils這個加密工具類是在Ranger項目的源碼中發現的,它是一個安全管理框架,普通的加密需求應該用它的 ...
  • 今天剛入門python,對於有c和java基礎的我,學習起來還是比較容易的,我並沒有用PyCharm寫,而是最基礎的IDLE,學習python比java容易的地方就是不要寫分號,不要打包,不要定義等等,可能是我還學習的不夠深入吧。 今天的知識點:python的註釋有# , ‘’’, 簡單的分享一下代 ...
  • Tornado 和現在的主流 Web 伺服器框架(包括大多數 Python 的框架)有著明顯的區別:它是非阻塞式伺服器,而且速度相當快能實現高併發。得利於其 非阻塞的方式和對epoll的運用,Tornado 每秒可以處理數以千計的連接,這意味著對於實時 Web 服務來說,Tornado 是一個理想的 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...