谷歌 MapReduce 初探

-Advertisement-

谷歌“三駕馬車”的出現，才真正把我們帶入了大數據時代，畢竟沒有谷歌，就沒有大數據。上次的分享，我們對谷歌的其中一駕寶車 GFS 進行了管中窺豹，雖然只見得其中一斑，但是也能清楚的知道 GFS 能夠把大量廉價的普通機器，聚在一起，充分讓每台廉價的機器發揮光和熱，不但降低了運營成本，而且解決了一個業界 ...

谷歌“三駕馬車”的出現，才真正把我們帶入了大數據時代，畢竟沒有谷歌，就沒有大數據。

上次的分享，我們對谷歌的其中一駕寶車 GFS 進行了管中窺豹，雖然只見得其中一斑，但是也能清楚的知道 GFS 能夠把大量廉價的普通機器，聚在一起，充分讓每台廉價的機器發揮光和熱，不但降低了運營成本，而且解決了一個業界數據存儲的難題。

雖然 GFS 解決了 Google 海量數據的存儲的難題，但是隨之而來的就是“如何從海量數據中快速計算並得到結果的難題”，面對這個難題，誰痛誰想辦法，Google 再次進行技術創新，重磅推出另一篇論文《MapReduce: Simplified Data Processing on Large Clusters》，接下來就一起認識認識 MapReduce。

認識

到底是個啥？說白了，MapReduce 其實就是一個為了簡化海量數據處理而提出的編程模型。

主要思想：分而治之，將一個大規模的問題，分成多個小規模的問題，把多個小規模問題解決，然後再合併小規模問題的解，就能夠解決大規模的問題。

編程模型：我們只需要通過編寫 Map 函數和 Reduce 函數來指定想要進行的計算，而不用花心思去糾結背後複雜的容錯、數據分發、負載均衡等等一系列技術細節問題。MapReduce 所執行的分散式計算會以一組鍵值對作為輸入，輸出另一組鍵值對。

怎麼想的？原來是受 Lisp 以及其它一些函數式編程語言中的 map 和 reduce 原語影響而來的（如果你閑著無聊，再去瞭解 Lisp 也不遲）。

疑惑

百思要求解。說了這麼多，感覺還是一無所知，顯然是一塊硬骨頭，其實在腦海中早已蕩起千層疑問的波。

Map 函數是啥？Reduce 函數又是啥?

接下來我們一起慢慢去體會。

統計大量文檔中每一個單詞出現的次數，這也是大數據技術入門的經典案例“WordCount”，此時需要我們編寫類似上面的偽代碼。

簡單剖析這段偽代碼，希望對 Map、Reduce 函數有一個深入的認識。

剖析 1：要統計文檔每個單詞出現的次數，顧名思義 map 函數入參 key 是文件名，value 是文檔的內容，接下來逐個遍歷單詞，每遇到一個單詞 w，就輸出一個中間結果（w, "1"）。

剖析 2：reduce 函數入參 key 就是單詞 w，值是一串“1”，然後將這些“1”累加就得到單詞 w 的出現次數。

剖析 3：最後把文檔中單詞的出現次數，輸出到用戶定義的位置，例如存儲到分散式存儲系統 GFS 上。

好了，大數據入門經典案例“WordCount”的偽代碼，到這就剖析個八九不離十，雖然懵懂了不少，但是還是萌生了一些猜想和疑問。

懵懂：Map 函數是啥？Reduce 函數是啥？

Map函數：處理一個基於 key/value 鍵值對的數據集合，同時也輸出基於 key/value 的數據集合；

Reduce函數：用來合併 Map 函數輸出的 key/value 數據集合。

論文中說了，上面偽代碼中輸入輸出雖然都是字元串類型的，但事實上，Map 和 Reduce 函數都是有相應類型的。

map　　　 (k1, v1)　　　　 -> list(k2, v2)
reduce　　 (k2, list(v2))　　-> list(v2)

猜想：map、reduce 函數中間感覺又觸發了“針對同一個單詞的 value 的組合（也就是把相同單詞出現的次數，串在一起）”，不然 reduce 函數怎麼能接收到 values（每個單詞對應的出現次數的一串“1”）。

騎驢看劇本，咱們還是走著瞧唄。

疑問1：map 產生的中間鍵值對，是放到記憶體、本地磁碟還是放到了 GFS 上存儲？

這個問題也是騎驢看劇本，咱們還是走著瞧唄（貌似用錯了語境，別介意，哈哈）。

疑問2：我們寫好了 Map 函數和 Reduce 函數，怎麼就跑到了多台機器上呢？

欲知後事如何，咱們還是且聽下回分解。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Shell腳本殺掉除自己外的舊進程

Shell腳本殺掉除自己外的舊進程在寫後臺Shell腳本的時候，這是比較常見的一個需求。比如之前運行了一個叫做a.sh的腳本在後臺運行，後來更新了a.sh腳本想重新運行，但卻不想手動殺掉已經存在的後臺a.sh進程。命令其實非常簡單：其中是篩選出除腳本自己之外的舊進程的PID。這裡的做了些 ...
【趙強老師】Oracle資料庫的存儲結構

Oracle的存儲結構分為：物理存儲結構和邏輯存儲結構。一、物理存儲結構：指硬碟上存在的文件數據文件(data file) 一個資料庫可以由多個數據文件組成的，數據文件是真正存放資料庫數據的。一個數據文件就是一個操作系統文件。資料庫的對象(表和索引)物理上是被存放在數據文件中的。當我們要查詢一個 ...
【SQL SERVER】索引

在做開發過程中經常會接觸資料庫索引，不只是DBA才需要知道索引知識，瞭解索引可以讓我們寫出更高質量代碼。簡單介紹索引的概述，聚集索引，非聚集索引，唯一索引，複合索引，篩選索引使用及註意事項 ...
Mysql資料庫（一）-------安裝

一、資料庫的分類 1、SQL Server 資料庫 2、Oracle 資料庫 3、mysql 資料庫 4、DB2 5、informix 以上是比較流行的資料庫，這裡沒有一一介紹，而是展示出來以便瞭解。二、MySQL資料庫的安裝和配置 1、如果你已經安裝了mysql ,先要卸載，再安裝。 2、先停 ...
【趙強老師】大數據分析引擎：Presto

一、什麼是Presto？背景知識：Hive的缺點和Presto的背景 Hive使用MapReduce作為底層計算框架，是專為批處理設計的。但隨著數據越來越多，使用Hive進行一個簡單的數據查詢可能要花費幾分到幾小時，顯然不能滿足互動式查詢的需求。Presto是一個分散式SQL查詢引擎，它被設計為用 ...
刪庫了一定要跑路嗎？愛情 36 技之記憶重生！

今天一位跨界老碼農不知咋回事，興奮過了頭，一不小心把資料庫給刪掉啦，然後問我咋恢復，然後我告訴他基於 binlog 可以恢復，誰成想沒有開啟 binlog，最後只能躲在角落裡傷心。愛情 36 技系列，好久沒更新啦，真是苦了追逐愛情系列的那些朋友們。好了，請忘記上面的一切，因為我們的愛情故事系列又 ...
聊起 BigTable，讓你不再膽怯

谷歌“三駕馬車”的出現，才真正把我們帶入了大數據時代，並指明瞭大數據的發展方向。 GFS 作為其中一駕寶車，解決了大數據存儲的難題。它能夠把大量廉價的普通機器，聚在一起，充分讓每台廉價的機器發揮光和熱。其中在《從谷歌 GFS 架構設計聊開去》中我們針對 GFS 進行了管中窺豹，體會到其中一斑，不得不 ...
悟懂MapReduce，不糾結！

在《谷歌 MapReduce 初探》中，我們通過統計詞頻的 WordCount 經典案例，對 Google 推出的 MapReduce 編程模型有了一個認識，但是那種認識，還只是停留在知道有那麼個模型存在，並沒有認識到骨子裡。而且上次初探，也遺留了很多猜想和疑問，這次不妨讓我們深入去認識一下 Map ...