運商大數據架構--二章（1）

-Advertisement-

架構驅動的因素運營商和互聯網面臨不同的歷史時期，因而大數據在各自領域承擔的使命是不一樣的運營商面臨被管道化的挑戰，營收下滑，大數據項目承擔企業戰略轉型、數據變現的使命。同時由於成本的壓力，以及大量基礎設施和設備利舊的訴求，所以運營商在大數據項目中，對性能、成本和集成度提出了很高的要求。互聯網企 ...

架構驅動的因素

　　運營商和互聯網面臨不同的歷史時期，因而大數據在各自領域承擔的使命是不一樣的

　　運營商面臨被管道化的挑戰，營收下滑，大數據項目承擔企業戰略轉型、數據變現的使命。同時由於成本的壓力，以及大量基礎設施和設備利舊的訴求，所以運營商在大數據項目中，對性能、成本和集成度提出了很高的要求。

　　互聯網企業近幾年盈利頗豐，大數據往往是承擔業務快速創新、未來探索的一種驅動因素，所以對架構的擴展性、靈活性等方面的追求優先順序在成本之上。互聯網企業每建一個數據中心通常就是幾千台的規模，這在運營商看來是不可想象的。

　　背後的商業驅動因素不一樣，所帶來的架構挑戰也不一樣。

大數據平臺架構

　　我們將以一個實際的大數據架構參與者、旁觀者的角色講述真正的實戰經驗，希望帶給讀者一些啟發。前面講到商業驅動因素不一樣，所面臨的場景不一樣，選擇的技術措施也會有所區別，但是其實存在即合理，實踐出真知

　　大數據平臺架構如圖2．1所示。可以看到，最上層是應用，大數據平臺最後還是要解決實際的業務問題，在運營商領域分別解決SQM（運維質量管理）、CSE（客戶體驗提升）、MSS（市場運維支撐）、DMP（數據管理平臺）等問題。這部分內容會在第3章詳細介紹。

　　第二層是各個組件/技術支撐，包括數據從產生獲取、處理（實時、批處理）、分析（互動式查詢、機器學習與數據挖掘）到最後的展現。這部分內容會在第4、8章介紹。

　　第三層，為了支持數據的存儲處理，需要統一的資源管理及分配。這部分內容會在第9章介紹。

　　第四層，上層框架和處理都構建在存儲的基礎上，所以存儲是基礎中的基礎。這部分內容會在第10章介紹。

　　第五層，大數據部署形態有雲化部署、物理機部署等多種部署模式。這部分內容會在第1 1章介紹。

　　第12章介紹大數據技術開發文化

平臺發展趨勢

　　Hadoop從2006年項目成立開始，已經風風雨雨走過了10年，從最開始的HDFS和MapReduce 兩個組件到現在完整的生態鏈。展望未來，隨著技術和業務的發展，下麵這些趨勢應該是所有設計和實現大數據平臺的人需要認真考慮的。

　　· Cloud First：雲優先。服務端利用雲的部署和擴展能力，保證數據訪問高併發、高可用、高可靠。

　　· stream Default：流優先。數據源端更多的是流數據，要求實時分析，進行秒級或分鐘級計算。

　　· Pervasive Analytics：普適分析。將分析能力推至數據源端、管道和服務端，低時延反饋結果

　　· self service：自服務。無須太多的人為干預和人力投人，使得數據合理放置，轉換為適合分析的數據類型，方便APP開發等。

　　現在看著風光無限的組件或者平臺，會不斷地被後來者所替代。

小結

本章簡要總結了本書的主要章節和內容。本書是圍繞一個通用的大數據處理邏輯架構來展開的。在實際的生產環境中，該架構並不是一成不變的，會根據業務來靈活地部署和應用。當然，在一個完整的企業大數據系統里，本書介紹的內容完全不夠，本書只介紹最基礎的大數據平臺，很多底層或者上層的內容可能沒有覆蓋到。另外，架構不是憑空出現的，由業務場景驅動的架構才是真正可用的架構。

謝謝支持，喜歡關註喲！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

linux禁止root用戶直接登錄sshd並修改預設埠

一、Linux最高許可權用戶root，預設可以直接登錄sshd。為了提高伺服器的安全度，需要對它進行禁止，使得攻擊者無法通過暴力破解來獲取root許可權。 1,新建一個用戶； 2,為新用戶設置密碼； 3,修改SSHD配置，禁止root直接登錄 #vi /etc/ssh/sshd_config 查找“#P ...
Linux - 修改系統的max open files、max user processes（附ulimit的使用方法）

Linux伺服器中, 經常發生"error: too many open files", 或者 "ulimit: max user processes: cannot modify limit" 類型的錯誤, 這些問題為什麼會發生? 又要如何解決? 本文記錄了我遇到問題、解決問題的過程, 最後還對u... ...
誤卸載glibc類庫導致系統崩潰解決方案

由於系統中沒有yum環境需要編譯安裝redis，但系統中卻沒有安裝gcc和gcc-c++,掛載本地鏡像安裝gcc和gcc-c++由於版本太高，由於一時疏忽誤將系統的依賴庫glibc使用rpm -e 命令卸載，導致系統瞬間奔潰無法使用bash登錄伺服器。現將解決方案整理總結以便後人查閱。使用Secu ...
ICMP協議

ICMP ICMP（Internet Control Message protocol）互聯網信息控制協議，用於實現鏈路連通性測試和鏈路追蹤，可以實現鏈路差錯報告，屬於UDP協議。ICMP有多種類型的報文，同一類型的報文會有多個不同的Code。 ping、tracert 等命令的內部就是用的 icm ...
Hadoop系列-zookeeper基礎

目前是剛剛初學完zookeeper，這篇文章主要是簡單的對一些基本的概念進行梳理強化。 zookeeper基礎概念的理解有時候電腦領域很多名詞都是從一長串英文提取首字母縮寫而來，但很不幸zookeeper不是。那麼，zookeeper到底是用來乾什麼的？我這裡先擺一段官網的介紹： ZooKeep ...
.NET下的使用ActiveMQ

項目結構 ActiveMQRecive下Program.cs 1 using Apache.NMS; 2 using Apache.NMS.ActiveMQ; 3 using Apache.NMS.Util; 4 using System; 5 using System.Collections.Ge ...
Spark初步從wordcount開始

Spark初步從wordcount開始 spark中自帶的example，有一個wordcount例子，我們逐步分析wordcount代碼，開始我們的spark之旅。準備工作把README.md文件複製到當前的文件目錄，啟動jupyter，編寫我們的代碼。 README.md文件在Spark的 ...
mysql（二）

DCL: 管理用戶：添加用戶： CREATE USER '用戶名'@'主機名' IDENTIFIED BY '密碼' 刪除用戶： DROP USER '用戶名'@'主機名' 修改用戶密碼： UPDATE USER SET PASSWORD = PASSWORD ('新密碼'）WHERE USER ...