十道海量數據處理面試題與十個方法大總結[轉]

第一部分、十道海量數據處理面試題 1、海量日誌數據，提取出某日訪問百度次數最多的那個IP。首先是這一天，並且是訪問百度的日誌中的IP取出來，逐個寫入到一個大文件中。註意到IP是32位的，最多有個2^32個IP。同樣可以採用映射的方法，比如模1000，把整個大文件映射為1000個小文件，再找出每個小 ...

第一部分、十道海量數據處理面試題

1、海量日誌數據，提取出某日訪問百度次數最多的那個IP。

首先是這一天，並且是訪問百度的日誌中的IP取出來，逐個寫入到一個大文件中。註意到IP是32位的，最多有個2^32個IP。同樣可以採用映射的方法，比如模1000，把整個大文件映射為1000個小文件，再找出每個小文中出現頻率最大的IP（可以採用hash_map進行頻率統計，然後再找出頻率最大的幾個）及相應的頻率。然後再在這1000個最大的IP中，找出那個頻率最大的IP，即為所求。

或者如下闡述（雪域之鷹）：
演算法思想：分而治之+Hash 1.IP地址最多有2^32=4G種取值情況，所以不能完全載入到記憶體中處理；
2.可以考慮採用“分而治之”的思想，按照IP地址的Hash(IP)%1024值，把海量IP日誌分別存儲到1024個小文件中。這樣，每個小文件最多包含4MB個IP地址；
3.對於每一個小文件，可以構建一個IP為key，出現次數為value的Hash map，同時記錄當前出現次數最多的那個IP地址；
4.可以得到1024個小文件中的出現次數最多的IP，再依據常規的排序演算法得到總體上出現次數最多的IP；

2、搜索引擎會通過日誌文件把用戶每次檢索使用的所有檢索串都記錄下來，每個查詢串的長度為1-255位元組。
假設目前有一千萬個記錄（這些查詢串的重覆度比較高，雖然總數是1千萬，但如果除去重覆後，不超過3百萬個。一個查詢串的重覆度越高，說明查詢它的用戶越多，也就是越熱門。），請你統計最熱門的10個查詢串，要求使用的記憶體不能超過1G。

    典型的Top K演算法，還是在這篇文章裡頭有所闡述，詳情請參見：十一、從頭到尾徹底解析Hash表演算法。

    文中，給出的最終演算法是：
    第一步、先對這批海量數據預處理，在O（N）的時間內用Hash表完成統計（之前寫成了排序，特此訂正。July、2011.04.27）；
    第二步、藉助堆這個數據結構，找出Top K，時間複雜度為N‘logK。
        即，藉助堆結構，我們可以在log量級的時間內查找和調整/移動。因此，維護一個K(該題目中是10)大小的小根堆，然後遍歷300萬的Query，分別和根元素進行對比所以，我們最終的時間複雜度是：O（N） + N'*O（logK），（N為1000萬，N’為300萬）。ok，更多，詳情，請參考原文。

或者：採用trie樹，關鍵字域存該查詢串出現的次數，沒有出現為0。最後用10個元素的最小推來對出現頻率進行排序。

3、有一個1G大小的一個文件，裡面每一行是一個詞，詞的大小不超過16位元組，記憶體限制大小是1M。返回頻數最高的100個詞。

方案：順序讀文件中，對於每個詞x，取hash(x)%5000，然後按照該值存到5000個小文件（記為x0,x1,...x4999）中。這樣每個文件大概是200k左右。

如果其中的有的文件超過了1M大小，還可以按照類似的方法繼續往下分，直到分解得到的小文件的大小都不超過1M。
對每個小文件，統計每個文件中出現的詞以及相應的頻率（可以採用trie樹/hash_map等），並取出出現頻率最大的100個詞（可以用含100個結點的最小堆），並把100個詞及相應的頻率存入文件，這樣又得到了5000個文件。下一步就是把這5000個文件進行歸併（類似與歸併排序）的過程了。

4、有10個文件，每個文件1G，每個文件的每一行存放的都是用戶的query，每個文件的query都可能重覆。要求你按照query的頻度排序。

    還是典型的TOP K演算法，解決方案如下：
    方案1：
    順序讀取10個文件，按照hash(query)%10的結果將query寫入到另外10個文件（記為）中。這樣新生成的文件每個的大小大約也1G（假設hash函數是隨機的）。

    找一臺記憶體在2G左右的機器，依次對用hash_map(query, query_count)來統計每個query出現的次數。利用快速/堆/歸併排序按照出現次數進行排序。將排序好的query和對應的query_cout輸出到文件中。這樣得到了10個排好序的文件（記為）。

對這10個文件進行歸併排序（內排序與外排序相結合）。

方案2：
一般query的總量是有限的，只是重覆的次數比較多而已，可能對於所有的query，一次性就可以加入到記憶體了。這樣，我們就可以採用trie樹/hash_map等直接來統計每個query出現的次數，然後按出現次數做快速/堆/歸併排序就可以了。

方案3：
與方案1類似，但在做完hash，分成多個文件後，可以交給多個文件來處理，採用分散式的架構來處理（比如MapReduce），最後再進行合併。

5、給定a、b兩個文件，各存放50億個url，每個url各占64位元組，記憶體限制是4G，讓你找出a、b文件共同的url？

方案1：可以估計每個文件安的大小為5G×64=320G，遠遠大於記憶體限制的4G。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。

遍歷文件a，對每個url求取hash(url)%1000，然後根據所取得的值將url分別存儲到1000個小文件（記為a0,a1,...,a999）中。這樣每個小文件的大約為300M。

遍歷文件b，採取和a相同的方式將url分別存儲到1000小文件（記為b0,b1,...,b999）。這樣處理後，所有可能相同的url都在對應的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不對應的小文件不可能有相同的url。然後我們只要求出1000對小文件中相同的url即可。

求每對小文件中相同的url時，可以把其中一個小文件的url存儲到hash_set中。然後遍歷另一個小文件的每個url，看其是否在剛纔構建的hash_set中，如果是，那麼就是共同的url，存到文件裡面就可以了。

方案2：如果允許有一定的錯誤率，可以使用Bloom filter，4G記憶體大概可以表示340億bit。將其中一個文件中的url使用Bloom filter映射為這340億bit，然後挨個讀取另外一個文件的url，檢查是否與Bloom filter，如果是，那麼該url應該是共同的url（註意會有一定的錯誤率）。

Bloom filter日後會在本BLOG內詳細闡述。

6、在2.5億個整數中找出不重覆的整數，註，記憶體不足以容納這2.5億個整數。

方案1：採用2-Bitmap（每個數分配2bit，00表示不存在，01表示出現一次，10表示多次，11無意義）進行，共需記憶體2^32 * 2 bit=1 GB記憶體，還可以接受。然後掃描這2.5億個整數，查看Bitmap中相對應位，如果是00變01，01變10，10保持不變。所描完事後，查看bitmap，把對應位是01的整數輸出即可。

方案2：也可採用與第1題類似的方法，進行劃分小文件的方法。然後在小文件中找出不重覆的整數，併排序。然後再進行歸併，註意去除重覆的元素。

7、騰訊面試題：給40億個不重覆的unsigned int的整數，沒排過序的，然後再給一個數，如何快速判斷這個數是否在那40億個數當中？

與上第6題類似，我的第一反應時快速排序+二分查找。以下是其它更好的方法：
方案1：oo，申請512M的記憶體，一個bit位代表一個unsigned int值。讀入40億個數，設置相應的bit位，讀入要查詢的數，查看相應bit位是否為1，為1表示存在，為0表示不存在。

dizengrong：
方案2：這個問題在《編程珠璣》里有很好的描述，大家可以參考下麵的思路，探討一下：
又因為2^32為40億多，所以給定一個數可能在，也可能不在其中；
這裡我們把40億個數中的每一個用32位的二進位來表示
假設這40億個數開始放在一個文件中。

    然後將這40億個數分成兩類:
      1.最高位為0
      2.最高位為1
    並將這兩類分別寫入到兩個文件中，其中一個文件中數的個數<=20億，而另一個>=20億（這相當於折半了）；
與要查找的數的最高位比較並接著進入相應的文件再查找

    再然後把這個文件為又分成兩類:
      1.次最高位為0
      2.次最高位為1

    並將這兩類分別寫入到兩個文件中，其中一個文件中數的個數<=10億，而另一個>=10億（這相當於折半了）；
    與要查找的數的次最高位比較並接著進入相應的文件再查找。
    .......
    以此類推，就可以找到了,而且時間複雜度為O(logn)，方案2完。

   附：這裡，再簡單介紹下，點陣圖方法：
    使用點陣圖法判斷整形數組是否存在重覆
    判斷集合中存在重覆是常見編程任務之一，當集合中數據量比較大時我們通常希望少進行幾次掃描，這時雙重迴圈法就不可取了。

點陣圖法比較適合於這種情況，它的做法是按照集合中最大元素max創建一個長度為max+1的新數組，然後再次掃描原數組，遇到幾就給新數組的第幾位置上1，如遇到5就給新數組的第六個元素置1，這樣下次再遇到5想置位時發現新數組的第六個元素已經是1了，這說明這次的數據肯定和以前的數據存在著重覆。這種給新數組初始化時置零其後置一的做法類似於點陣圖的處理方法故稱點陣圖法。它的運算次數最壞的情況為2N。如果已知數組的最大值即能事先給新數組定長的話效率還能提高一倍。

歡迎，有更好的思路，或方法，共同交流。

8、怎麼在海量數據中找出重覆次數最多的一個？

方案1：先做hash，然後求模映射為小文件，求出每個小文件中重覆次數最多的一個，並記錄重覆次數。然後找出上一步求出的數據中重覆次數最多的一個就是所求（具體參考前面的題）。

9、上千萬或上億數據（有重覆），統計其中出現次數最多的錢N個數據。

方案1：上千萬或上億的數據，現在的機器的記憶體應該能存下。所以考慮採用hash_map/搜索二叉樹/紅黑樹等來進行統計次數。然後就是取出前N個出現次數最多的數據了，可以用第2題提到的堆機制完成。

10、一個文本文件，大約有一萬行，每行一個詞，要求統計出其中最頻繁出現的前10個詞，請給出思想，給出時間複雜度分析。

方案1：這題是考慮時間效率。用trie樹統計每個詞出現的次數，時間複雜度是O(n*le)（le表示單詞的平準長度）。然後是找出出現最頻繁的前10個詞，可以用堆來實現，前面的題中已經講到了，時間複雜度是O(n*lg10)。所以總的時間複雜度，是O(n*le)與O(n*lg10)中較大的哪一個。

附、100w個數中找出最大的100個數。

方案1：在前面的題中，我們已經提到了，用一個含100個元素的最小堆完成。複雜度為O(100w*lg100)。

方案2：採用快速排序的思想，每次分割之後只考慮比軸大的一部分，知道比軸大的一部分在比100多的時候，採用傳統排序演算法排序，取前100個。複雜度為O(100w*100)。

方案3：採用局部淘汰法。選取前100個元素，併排序，記為序列L。然後一次掃描剩餘的元素x，與排好序的100個元素中最小的元素比，如果比這個最小的要大，那麼把這個最小的元素刪除，並把x利用插入排序的思想，插入到序列L中。依次迴圈，知道掃描了所有的元素。複雜度為O(100w*100)。

致謝：http://www.cnblogs.com/youwang/。

第二部分、十個海量數據處理方法大總結

ok，看了上面這麼多的面試題，是否有點頭暈。是的，需要一個總結。接下來，本文將簡單總結下一些處理海量數據問題的常見方法，而日後，本BLOG內會具體闡述這些方法。

下麵的方法全部來自http://hi.baidu.com/yanxionglu/blog/博客，對海量數據的處理方法進行了一個一般性的總結，當然這些方法可能並不能完全覆蓋所有的問題，但是這樣的一些方法也基本可以處理絕大多數遇到的問題。下麵的一些問題基本直接來源於公司的面試筆試題目，方法不一定最優，如果你有更好的處理方法，歡迎討論。

一、Bloom filter

　　適用範圍：可以用來實現數據字典，進行數據的判重，或者集合求交集

　　基本原理及要點：
　　對於原理來說很簡單，位數組+k個獨立hash函數。將hash函數對應的值的位數組置1，查找時如果發現所有hash函數對應位都是1說明存在，很明顯這個過程並不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字，因為該關鍵字對應的位會牽動到其他的關鍵字。所以一個簡單的改進就是 counting Bloom filter，用一個counter數組代替位數組，就可以支持刪除了。

　　還有一個比較重要的問題，如何根據輸入元素個數n，確定位數組m的大小及hash函數個數。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大於E的情況下，m至少要等於n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些，因為還要保證bit數組裡至少一半為0，則m應該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對數)。

　　舉個例子我們假設錯誤率為0.01，則此時m應大概是n的13倍。這樣k大概是8個。

　　註意這裡m與n的單位不同，m是bit為單位，而n則是以元素個數為單位(準確的說是不同元素的個數)。通常單個元素的長度都是有很多bit的。所以使用bloom filter記憶體上通常都是節省的。

　　擴展：
　　Bloom filter將集合中的元素映射到位數組中，用k（k為哈希函數個數）個映射位是否全1表示元素在不在這個集合中。Counting bloom filter（CBF）將位數組中的每一位擴展為一個counter，從而支持了元素的刪除操作。Spectral Bloom Filter（SBF）將其與集合元素的出現次數關聯。SBF採用counter中的最小值來近似表示元素的出現頻率。

　　問題實例：給你A,B兩個文件，各存放50億條URL，每條URL占用64位元組，記憶體限制是4G，讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢？

　　根據這個問題我們來計算下記憶體的占用，4G=2^32大概是40億*8大概是340億，n=50億，如果按出錯率0.01算需要的大概是650億個bit。現在可用的是340億，相差並不多，這樣可能會使出錯率上升些。另外如果這些urlip是一一對應的，就可以轉換成ip，則大大簡單了。

二、Hashing

　　適用範圍：快速查找，刪除的基本數據結構，通常需要總數據量可以放入記憶體

　　基本原理及要點：
　　hash函數選擇，針對字元串，整數，排列，具體相應的hash方法。
　　碰撞處理，一種是open hashing，也稱為拉鏈法；另一種就是closed hashing，也稱開地址法，opened addressing。

擴展：
　　d-left hashing中的d是多個的意思，我們先簡化這個問題，看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半，分別叫做T1和T2，給T1和T2分別配備一個哈希函數，h1和h2。在存儲一個新的key時，同時用兩個哈希函數進行計算，得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置，哪一個位置已經存儲的（有碰撞的）key比較多，然後將新key存儲在負載少的位置。如果兩邊一樣多，比如兩個位置都為空或者都存儲了一個key，就把新key存儲在左邊的T1子表中，2-left也由此而來。在查找一個key時，必須進行兩次hash，同時查找兩個位置。

　　問題實例：
　　1).海量日誌數據，提取出某日訪問百度次數最多的那個IP。
　　IP的數目還是有限的，最多2^32個，所以可以考慮使用hash將ip直接存入記憶體，然後進行統計。

三、bit-map

　　適用範圍：可進行數據的快速查找，判重，刪除，一般來說數據範圍是int的10倍以下

　　基本原理及要點：使用bit數組來表示某些元素是否存在，比如8位電話號碼

　　擴展：bloom filter可以看做是對bit-map的擴展

　　問題實例：
　　1)已知某個文件內包含一些電話號碼，每個號碼為8位數字，統計不同號碼的個數。
　　8位最多99 999 999，大概需要99m個bit，大概10幾m位元組的記憶體即可。
　　2)2.5億個整數中找出不重覆的整數的個數，記憶體空間不足以容納這2.5億個整數。

　　將bit-map擴展一下，用2bit表示一個數即可，0表示未出現，1表示出現一次，2表示出現2次及以上。或者我們不用2bit來進行表示，我們用兩個bit-map即可模擬實現這個2bit-map。

四、堆

　　適用範圍：海量數據前n大，並且n比較小，堆可以放入記憶體

　　基本原理及要點：最大堆求前n小，最小堆求前n大。方法，比如求前n小，我們比較當前元素與最大堆里的最大元素，如果它小於最大元素，則應該替換那個最大元素。這樣最後得到的n個元素就是最小的n個。適合大數據量，求前n小，n的大小比較小的情況，這樣可以掃描一遍即可得到所有的前n元素，效率很高。

　　擴展：雙堆，一個最大堆與一個最小堆結合，可以用來維護中位數。

　　問題實例：
　　1)100w個數中找最大的前100個數。
　　用一個100個元素大小的最小堆即可。

五、雙層桶劃分----其實本質上就是【分而治之】的思想，重在“分”的技巧上！

　　適用範圍：第k大，中位數，不重覆或重覆的數字
　　基本原理及要點：因為元素範圍很大，不能利用直接定址表，所以通過多次劃分，逐步確定範圍，然後最後在一個可以接受的範圍內進行。可以通過多次縮小，雙層只是一個例子。

　　擴展：
　　問題實例：
　　1).2.5億個整數中找出不重覆的整數的個數，記憶體空間不足以容納這2.5億個整數。
　　有點像鴿巢原理，整數個數為2^32,也就是，我們可以將這2^32個數，劃分為2^8個區域(比如用單個文件代表一個區域)，然後將數據分離到不同的區域，然後不同的區域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁碟空間，就可以很方便的解決。

　　2).5億個int找它們的中位數。
　　這個例子比上面那個更明顯。首先我們將int劃分為2^16個區域，然後讀取數據統計落到各個區域里的數的個數，之後我們根據統計結果就可以判斷中位數落到那個區域，同時知道這個區域中的第幾大數剛好是中位數。然後第二次掃描我們只統計落在這個區域中的那些數就可以了。

　　實際上，如果不是int是int64，我們可以經過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區域，然後確定區域的第幾大數，在將該區域分成2^20個子區域，然後確定是子區域的第幾大數，然後子區域里的數的個數只有2^20，就可以直接利用direct addr table進行統計了。

六、資料庫索引

　　適用範圍：大數據量的增刪改查

　　基本原理及要點：利用數據的設計實現方法，對海量數據的增刪改查進行處理。

七、倒排索引(Inverted index)

　　適用範圍：搜索引擎，關鍵字查詢

　　基本原理及要點：為何叫倒排索引？一種索引方法，被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。

　以英文為例，下麵是要被索引的文本：
    T0 = "it is what it is"
    T1 = "what is it"
    T2 = "it is a banana"

我們就能得到下麵的反向文件索引：

    "a":      {2}
    "banana": {2}
    "is":     {0, 1, 2}
    "it":     {0, 1, 2}
    "what":   {0, 1}

　檢索的條件"what","is"和"it"將對應集合的交集。

　　正向索引開發出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中，文檔占據了中心的位置，每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞，而反向索引則是單詞指向了包含它的文檔，很容易看到這個反向的關係。

　　擴展：
　　問題實例：文檔檢索系統，查詢那些文件包含了某單詞，比如常見的學術論文的關鍵字搜索。

八、外排序

　　適用範圍：大數據的排序，去重

　　基本原理及要點：外排序的歸併方法，置換選擇敗者樹原理，最優歸併樹

　　擴展：

　　問題實例：
　　1).有一個1G大小的一個文件，裡面每一行是一個詞，詞的大小不超過16個位元組，記憶體限制大小是1M。返回頻數最高的100個詞。

　　這個數據具有很明顯的特點，詞的大小為16個位元組，但是記憶體只有1m做hash有些不夠，所以可以用來排序。記憶體可以當輸入緩衝區使用。

九、trie樹

　　適用範圍：數據量大，重覆多，但是數據種類小可以放入記憶體

　　基本原理及要點：實現方式，節點孩子的表示方式

　　擴展：壓縮實現。

　　問題實例：
　　1).有10個文件，每個文件1G，每個文件的每一行都存放的是用戶的query，每個文件的query都可能重覆。要你按照query的頻度排序。
　　2).1000萬字元串，其中有些是相同的(重覆),需要把重覆的全部去掉，保留沒有重覆的字元串。請問怎麼設計和實現？
　　3).尋找熱門查詢：查詢串的重覆度比較高，雖然總數是1千萬，但如果除去重覆後，不超過3百萬個，每個不超過255位元組。

十、分散式處理 mapreduce

　　適用範圍：數據量大，但是數據種類小可以放入記憶體

　　基本原理及要點：將數據交給不同的機器去處理，數據劃分，結果歸約。

　　擴展：
　　問題實例：
　　1).The canonical example application of MapReduce is a process to count the appearances of
each different word in a set of documents:
　　2).海量數據分佈在100臺電腦中，想個辦法高效統計出這批數據的TOP10。
　　3).一共有N個機器，每個機器上有N個數。每個機器最多存O(N)個數並對它們操作。如何找到N^2個數的中數(median)？

經典問題分析
　　上千萬or億數據（有重覆），統計其中出現次數最多的前N個數據,分兩種情況：可一次讀入記憶體，不可一次讀入。

　　可用思路：trie樹+堆，資料庫索引，劃分子集分別統計，hash，分散式計算，近似統計，外排序

　　所謂的是否能一次讀入記憶體，實際上應該指去除重覆後的數據量。如果去重後數據可以放入記憶體，我們可以為數據建立字典，比如通過 map，hashmap，trie，然後直接進行統計即可。當然在更新每條數據的出現次數的時候，我們可以利用一個堆來維護出現次數最多的前N個數據，當然這樣導致維護次數增加，不如完全統計後在求前N大效率高。

　　如果數據無法放入記憶體。一方面我們可以考慮上面的字典方法能否被改進以適應這種情形，可以做的改變就是將字典存放到硬碟上，而不是記憶體，這可以參考資料庫的存儲方法。

　　當然還有更好的方法，就是可以採用分散式計算，基本上就是map-reduce過程，首先可以根據數據值或者把數據hash(md5)後的值，將數據按照範圍劃分到不同的機子，最好可以讓數據劃分後可以一次讀入記憶體，這樣不同的機子負責處理各種的數值範圍，實際上就是map。得到結果後，各個機子只需拿出各自的出現次數最多的前N個數據，然後彙總，選出所有的數據中出現次數最多的前N個數據，這實際上就是reduce過程。

　　實際上可能想直接將數據均分到不同的機子上進行處理，這樣是無法得到正確的解的。因為一個數據可能被均分到不同的機子上，而另一個則可能完全聚集到一個機子上，同時還可能存在具有相同數目的數據。比如我們要找出現次數最多的前100個，我們將1000萬的數據分佈到10台機器上，找到每台出現次數最多的前 100個，歸併之後這樣不能保證找到真正的第100個，因為比如出現次數最多的第100個可能有1萬個，但是它被分到了10台機子，這樣在每臺上只有1千個，假設這些機子排名在1000個之前的那些都是單獨分佈在一臺機子上的，比如有1001個，這樣本來具有1萬個的這個就會被淘汰，即使我們讓每台機子選出出現次數最多的1000個再歸併，仍然會出錯，因為可能存在大量個數為1001個的發生聚集。因此不能將數據隨便均分到不同機子上，而是要根據hash 後的值將它們映射到不同的機子上處理，讓不同的機器處理一個數值範圍。

　而外排序的方法會消耗大量的IO，效率不會很高。而上面的分散式方法，也可以用於單機版本，也就是將總的數據根據值的範圍，劃分成多個不同的子文件，然後逐個處理。處理完畢之後再對這些單詞的及其出現頻率進行一個歸併。實際上就可以利用一個外排序的歸併過程。

　另外還可以考慮近似計算，也就是我們可以通過結合自然語言屬性，只將那些真正實際中出現最多的那些詞作為一個字典，使得這個規模可以放入記憶體。

出處:http://blog.csdn.net/v_JULY_v/article/details/6279498