大數據開發你需要知道的十個技術

来源:https://www.cnblogs.com/xuexiqun784789432/archive/2018/06/02/9126294.html
-Advertisement-
Play Games

前言 “當你不創造東西時,你只會根據自己的感覺而不是能力去看待問題。” – WhyTheLuckyStiff 彙總一些自己在大數據路上走過的彎路,願大家不再掉坑… 1.分散式存儲 傳統化集中式存儲存在已有一段時間。但大數據並非真的適合集中式存儲架構。Hadoop設計用於將計算更接近數據節點,同時採用 ...


 

 

 

前言  

“當你不創造東西時,你只會根據自己的感覺而不是能力去看待問題。” – WhyTheLuckyStiff

彙總一些自己在大數據路上走過的彎路,願大家不再掉坑…

1.分散式存儲

傳統化集中式存儲存在已有一段時間。但大數據並非真的適合集中式存儲架構。Hadoop設計用於將計算更接近數據節點,同時採用了HDFS文件系統的大規模橫向擴展功能。

雖然,通常解決Hadoop管理自身數據低效性的方案是將Hadoop 數據存儲在SAN上。但這也造成了它自身性能與規模的瓶頸。現在,如果你把所有的數據都通過集中式SAN處理器進行處理,與Hadoop的分散式和並行化特性相悖。你要麼針對不同的數據節點管理多個SAN,要麼將所有的數據節點都集中到一個SAN。

但Hadoop是一個分散式應用,就應該運行在分散式存儲上,這樣存儲就保留了與Hadoop本身同樣的靈活性,不過它也要求擁抱一個軟體定義存儲方案,併在商用伺服器上運行,這相比瓶頸化的Hadoop自然更為高效。

2.超融合VS分散式

註意,不要混淆超融合與分散式。某些超融合方案是分散式存儲,但通常這個術語意味著你的應用和存儲都保存在同一計算節點上。這是在試圖解決數據本地化的問題,但它會造成太多資源爭用。這個Hadoop應用和存儲平臺會爭用相同的記憶體和CPU。Hadoop運行在專有應用層,分散式存儲運行在專有存儲層這樣會更好。之後,利用緩存和分層來解決數據本地化並補償網路性能損失。

3.避免控制器瓶頸(Controller Choke Point)

實現目標的一個重要方面就是——避免通過單個點例如一個傳統控制器來處理數據。反之,要確保存儲平臺並行化,性能可以得到顯著提升。

此外,這個方案提供了增量擴展性。為數據湖添加功能跟往裡面扔x86伺服器一樣簡單。一個分散式存儲平臺如有需要將自動添加功能並重新調整數據。

4.刪重和壓縮

掌握大數據的關鍵是刪重和壓縮技術。通常大數據集內會有70%到90%的數據簡化。以PB容量計,能節約數萬美元的磁碟成本。現代平臺提供內聯(對比後期處理)刪重和壓縮,大大降低了存儲數據所需能力。

5.合併Hadoop發行版

很多大型企業擁有多個Hadoop發行版本。可能是開發者需要或是企業部門已經適應了不同版本。無論如何最終往往要對這些集群的維護與運營。一旦海量數據真正開始影響一家企業時,多個Hadoop發行版存儲就會導致低效性。我們可以通過創建一個單一,可刪重和壓縮的數據湖獲取數據效率

6.虛擬化Hadoop

虛擬化已經席卷企業級市場。很多地區超過80%的物理伺服器現在是虛擬化的。但也仍有很多企業因為性能和數據本地化問題對虛擬化Hadoop避而不談。

7.創建彈性數據湖

創建數據湖並不容易,但大數據存儲可能會有需求。我們有很多種方法來做這件事,但哪一種是正確的?這個正確的架構應該是一個動態,彈性的數據湖,可以以多種格式(架構化,非結構化,半結構化)存儲所有資源的數據。更重要的是,它必須支持應用不在遠程資源上而是在本地數據資源上執行。

不幸的是,傳統架構和應用(也就是非分散式)並不盡如人意。隨著數據集越來越大,將應用遷移到數據不可避免,而因為延遲太長也無法倒置。

理想的數據湖基礎架構會實現數據單一副本的存儲,而且有應用在單一數據資源上執行,無需遷移數據或製作副本

8.整合分析

分析並不是一個新功能,它已經在傳統RDBMS環境中存在多年。不同的是基於開源應用的出現,以及資料庫表單和社交媒體,非結構化數據資源(比如,維基百科)的整合能力。關鍵在於將多個數據類型和格式整合成一個標準的能力,有利於更輕鬆和一致地實現可視化與報告製作。合適的工具也對分析/商業智能項目的成功至關重要。

9. 大數據遇見大視頻

大數據存儲問題已經讓人有些焦頭爛額了,現在還出現了大視頻現象。比如,企業為了安全以及操作和工業效率逐漸趨於使用視頻監控,簡化流量管理,支持法規遵從性和幾個其它的使用案例。很短時間內這些資源將產生大量的內容,大量必須要處理的內容。如果沒有專業的存儲解決方案很可能會導致視頻丟失和質量降低的問題。

10.沒有絕對的贏家

Hadoop的確取得了一些進展。那麼隨著大數據存儲遍地開花,它是否會成為贏家,力壓其它方案,其實不然。

比如,基於SAN的傳統架構在短期內不可取代,因為它們擁有OLTP,100%可用性需求的內在優勢。所以最理想的辦法是將超融合平臺與分散式文件系統和分析軟體整合在一起。而成功的最主要因素則是存儲的可擴展性因素。

如果你想瞭解大數據的學習路線,想學習大數據知識以及需要免費的學習資料可以加群:784789432.歡迎你的加入。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • JOOQ快速上手(基於springboot 和 postgresql) ...
  • Dos方法: 依托於 目錄下的文件 使用plsql developer 客戶端軟體進行連接 需要配置一下: 就是把Dos的客戶端配置進來 然後,把伺服器端的文件拷貝到你的的機器 並設置TNS_ADMIN環境變數為這個目錄(不要中文 空格 符號等的目錄) 這樣就登陸成功了 解決中文亂碼問題 修改sco ...
  • 一 數據倉庫 1 什麼是數據倉庫 數據倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它出於分析性報告和決策支持目的而創建。為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。 2 數 ...
  • mysql -uroot -p 登陸資料庫 select now(); 顯示當前時間 \q 退出 show databases; 顯示資料庫 create database 資料庫名 charset=utf8; 創建資料庫 drop database 資料庫名字; 刪除資料庫 use 資料庫名 切換 ...
  • https://www.cnblogs.com/asker009/p/9126354.html 最近要搭建一個Hadoop做實驗,因為版本的問題遇到不少的坑,本文記錄VM上搭建的CentOS7.0+Hadoop3.1偽分散式的整個過程。 CentOS7.0安裝這裡不贅述。 Hadoop下載3.1。 ...
  • 獲取鏡像 ~~~bash 本機內 docker pull ubuntu:16.04 ~~~ 編排鏡像 1. 啟動一個容器 ~~~bash 本機內 docker run i t name master ubuntu:16.04 ~~~ 2. 在容器內進行安裝配置 ~~~bash 容器內 apt upd ...
  • 查看有哪些資料庫: 創建,刪除資料庫: 查看有哪些表: 創建,刪除表: 查看表結構: 設置表的主鍵: 設置,刪除表的外鍵: 子表的外鍵關聯必須是父表的主鍵,而且數據類型必須一致。 新增欄位: 刪除欄位: 修改欄位排列位置: 更改表的存儲引擎: 刪除被其他表關聯的父表時,應該先刪除子表的外鍵約束,然後 ...
  • 需要學習的朋友可以通過網盤下載: http://tadown.com/fs/8yi6be9nsehu9e921/內容簡介 · · · · · · 《MySQL必知必會》MySQL是世界上最受歡迎的資料庫管理系統之一。書中從介紹簡單的數據檢索開始,逐步深入一些複雜的內容,包括聯結的使用、子查詢、正則表 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...