這裡整理5個Spark的應用實例,希望對Spark學習者能夠有所幫助 ...
Spark簡介:
Spark是UC Berkeley AMP lab開發的一個集群計算的框架,類似於Hadoop,但有很多的區別。最大的優化是讓計算任務的中間結果可以存儲在記憶體中,不需要每次都寫入HDFS,更適用於需要迭代的MapReduce演算法場景中,可以獲得更好的性能提升。
例如一次排序測試中,對100TB數據進行排序,Spark比Hadoop快三倍,並且只需要十分之一的機器。Spark集群目前最大的可以達到8000節點,處理的數據達到PB級別,在互聯網企業中應用非常廣泛。
這裡整理5個Spark的應用實例,希望對Spark學習者能夠有所幫助~
【使用 Spark 進行流量日誌分析】
日誌在電腦系統中是一個非常廣泛的概念,任何程式都有可能輸出日誌:操作系統內核、各種應用伺服器等等。日誌包含很多有用的信息,例如訪問者的 IP、訪問的時間、訪問的目標網頁、來源的地址以及訪問者所使用的客戶端的 UserAgent 信息等,分析日誌能幫助企業營銷做出決策。
這個項目介紹如何用 Spark 分析日誌,開始介紹了日誌的分類,然後從日誌不斷簡化數據,最終只留下4 個欄位,最後以手機號標準,分別按照,上行流量,下行流量,報告時間戳進行倒序排序, 希望學完本節課,能幫助您理解學會運用 Spark 去處理複雜日誌分析。
【大數據帶你挖掘打車的秘籍】
計程車是我們生活中經常乘坐的一種交通工具,但打車難的問題也限制了我們更好地利用這種交通方式。在哪些地方計程車更容易打到?在什麼時候更容易打到計程車?該項目基於某市的計程車行駛軌跡數據,帶你學習如何應用Spark SQL和機器學習相關技巧,並且通過數據可視化手段展現分析結果。
過程圖:
【Spark 實現黑名單實時過濾】
這個項目主要講解 Spark 的 RDD 操作,讓您對 Spark 運算元的特性快速瞭解。通過演示案例實時黑名單過濾,讓您切身體會到 RDD 的強大功能,然後學以致用。
【Spark流式計算電商商品關註度】
該項目使用Scoket來模擬用戶瀏覽商品產生實時數據,數據包括用戶當前瀏覽的商品以及瀏覽商品的次數和停留時間和是否收藏該商品。使用Spark Streaming構建實時數據處理系統,來計算當前電商平臺最受人們關註的商品是哪些。適合有一定的Java編程基礎以及一定得Spark知識,瞭解Streaming的工作機制的同學學習
效果圖:
【使用 Spark 和 D3.js 分析航班大數據】
該項目通過一個航班數據分析實例來學習 Spark 綜合技巧和數據可視化技術。在航班數據分析實驗中,可以學習到如何使用 OpenRefine 進行簡單的數據清洗,以及如何通過 Spark 提供的 DataFrame、 SQL 和機器學習框架等工具,對航班起降的記錄數據進行分析,嘗試找出造成航班延誤的原因,以及對航班延誤情況進行預測。在數據可視化實驗中,可以學習到 D3.js 中的數據讀取、插值、元素選取、屬性設置等 API 的用法。
效果圖:
最後:
以上5個Spark實例教程希望對你有所幫助,更多Spark教程,點擊這裡即可查看~