大數據學習資源彙總

来源:http://www.cnblogs.com/dunitian/archive/2016/05/05/5461280.html
-Advertisement-
Play Games

當前,整個互聯網正在從IT時代向DT時代演進,大數據技術也正在助力企業和公眾敲開DT世界大門。當今“大數據”一詞的重點其實已經不僅在於數據規模的定義,它更代表著信息技術發展進入了一個新的時代,代表著爆炸性的數據信息給傳統的計算技術和信息技術帶來的技術挑戰和困難,代表著大數據處理所需的新的技術和方法, ...


當前,整個互聯網正在從IT時代向DT時代演進,大數據技術也正在助力企業和公眾敲開DT世界大門。當今“大數據”一詞的重點其實已經不僅在於數據規模的定義,它更代表著信息技術發展進入了一個新的時代,代表著爆炸性的數據信息給傳統的計算技術和信息技術帶來的技術挑戰和困難,代表著大數據處理所需的新的技術和方法,也代表著大數據分析和應用所帶來的新發明、新服務和新的發展機遇。

為了幫助大家更好深入瞭解大數據,雲棲社區組織翻譯了GitHub Awesome Big Data資源,供大家參考。本資源類型主要包括:大數據框架、論文等實用資源集合

 

資源列表:

 

  •   關係資料庫管理系統(RDBMS
  •   框架
  •   分散式編程
  •   分散式文件系統
  •   文件數據模型
  •   Key -Map 數據模型
  •   -值數據模型
  •   圖形數據模型
  •   NewSQL資料庫
  •   列式資料庫
  •   時間序列資料庫
  •   SQL處理
  •   數據攝取
  •   服務編程
  •   調度
  •   機器學習
  •   基準測試
  •   安全性
  •   系統部署
  •   應用程式
  •   搜索引擎與框架
  •   MySQL的分支和演化
  •   PostgreSQL的分支和演化
  •   Memcached的分支和演化
  •   嵌入式資料庫
  •   商業智能
  •   數據可視化
  •   物聯網和感測器
  •   文章
  •   論文
  •   視頻

 

關係資料庫管理系統RDBMS

 

  •  SQLServer世界最有活力的資料庫;  
  •   MySQL:世界最流行的開源資料庫;
  •   PostgreSQL:世界最先進的開源資料庫;
  •   Oracle 資料庫:對象-關係型資料庫管理系統。

 

框架

 

  •   Apache Hadoop:分散式處理架構,結合了 MapReduce(並行處理)、YARN(作業調度)和HDFS(分散式文件系統);
  •   Tigon:高吞吐量實時流處理框架。

 

分散式編程

 

  •   AddThis Hydra :最初在AddThis上開發的分散式數據處理和存儲系統;
  •   AMPLab SIMR:用在Hadoop MapReduce v1上運行Spark
  •   Apache Beam:為統一的模型以及一套用於定義和執行數據處理工作流的特定SDK語言;
  •   Apache Crunch:一個簡單的Java API,用於執行在普通的MapReduce實現時比較單調的連接、數據聚合等任務;
  •   Apache DataFu:由LinkedIn開發的針對Hadoop and Pig的用戶定義的函數集合;
  •   Apache Flink:具有高性能的執行時間和自動程式優化;
  •   Apache Gora:記憶體中的數據模型和持久性框架;
  •   Apache HamaBSP(整體同步並行)計算框架;
  •   Apache MapReduce :在集群上使用並行、分散式演算法處理大數據集的編程模型;
  •   Apache Pig Hadoop中,用於處理數據分析程式的高級查詢語言;
  •   Apache REEF :用來簡化和統一低層大數據系統的保留性評估執行框架;
  •   Apache S4 S4中流處理與實現的框架;
  •   Apache Spark :記憶體集群計算框架;
  •   Apache Spark Streaming :流處理框架,同時是Spark的一部分;
  •   Apache Storm Twitter流處理框架,也可用於YARN
  •   Apache Samza :基於KafkaYARN的流處理框架;
  •   Apache Tez :基於YARN,用於執行任務中的複雜DAG(有向無環圖);
  •   Apache Twill :基於YARN的抽象概念,用於減少開發分散式應用程式的複雜度;
  •   Cascalog:數據處理和查詢庫;
  •   Cheetah :在MapReduce之上的高性能、自定義數據倉庫;
  •   Concurrent Cascading :在Hadoop上的數據管理/分析框架;
  •   Damballa Parkour :用於ClojureMapReduce庫;
  •   Datasalt Pangool :可選擇的MapReduce範例;
  •   DataTorrent StrAM :為實時引擎,用於以儘可能暢通的方式、最小的開支和對性能最小的影響,實現分散式、非同步、實時的記憶體大數據計算;
  •   Facebook Corona :為Hadoop做優化處理,從而消除單點故障;
  •   Facebook Peregrine MapReduce框架;
  •   Facebook Scuba :分散式記憶體數據存儲;
  •   Google Dataflow :創建數據管道,以幫助其分析框架;
  •   Netflix PigPen :為MapReduce,用於編譯成Apache Pig
  •   Nokia Disco :由Nokia開發的MapReduc獲取、轉換和分析數據;
  •   Google MapReduce MapReduce框架;
  •   Google MillWheel :容錯流處理框架; 
  •   JAQL :用於處理結構化、半結構化和非結構化數據工作的聲明性編程語言;
  •   Kite :為一組庫、工具、實例和文檔集,用於使在Hadoop的生態系統上建立系統更加容易;
  •   Metamarkets Druid :用於大數據集的實時e框架;
  •   Onyx :分散式雲計算;
  •   Pinterest Pinlater :非同步任務執行系統;
  •   Pydoop :用於HadoopPython MapReduceHDFS API
  •   Rackerlabs Blueflood :多租戶分散式測度處理系統;
  •   Stratosphere :通用集群計算框架;
  •   Streamdrill :用於計算基於不同時間視窗的事件流的活動,並找到最活躍的一個;
  •   Tuktu :易於使用的用於分批處理和流計算的平臺,通過Scala AkkaPlay所建;
  •   
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ...
  • 最近在研究Xamarin的東西,做到ListView遇到了一些瓶頸,像在數據龐大的情況下,該怎麼針對ListView中的數據分組呢? 基於能力有限的問題,暫時寫了一個只可以實現功能的臨時解決方案,畢竟,樣式和易用性啊還是有點。。。 廢話不多說,直接上代碼吧 首先我寫了一個簡單的ListView和一個 ...
  • 因公司業務需要,需要做一個微信公眾號里的圖片上傳功能,主要用到的技術就是 img轉base64 上到伺服器 話不多說, 貼代碼 先看前端顯示出來的東西 OK 圖片不重要,看代碼 再看js代碼 再看伺服器端代碼 至此, 大家應該能看明白這個微信內置瀏覽器的上傳方法了~ 希望和我一樣的朋友, 繼續加油, ...
  • 上一章講解了利用CKEditor實現了一個簡單的列表功能的查詢,CKEditor編輯器是由js實現的,js是一門非常強大的語法,但是要用它實現Vs開發工具那樣強大編輯器的功能,估計不可能,這就使得CKEditor實現簡單增刪改查還可以,如果要實現複雜功能和樣式展示效果會很難,所以我利用vs開發工具的 ...
  • OData是一個非常靈活的RESTful API,如果要做出強大的查詢API,那麼OData就強烈推薦了。http://www.odata.org/ OData的特點就是可以根據傳入參數動態生成Entity Framework的查詢,最終實現動態的SQL的查詢。但是在項目有時我們並沒有採用Entit ...
  • 使用IQueryable 使用IEnumerable IQueryable介面與IEnumberable介面的區別: IEnumerable<T> 泛型類在調用自己的SKip 和 Take 等擴展方法之前數據就已經載入在本地記憶體里了,而IQueryable<T> 是將Skip ,take 這些方法表 ...
  • 在webform中的devexpress aspxsplitter中套用了jquery-easyui的 tabs id=tt <div id="tt" class="easyui-tabs" data-options="tools:'#tab-tools'" style="width:100%;he ...
  • 參考:http://www.cnblogs.com/chengxiaohui/articles/2092001.html 在EF4(.NET 4)中,我們有了全新的API:ObjectContext.ExecuteStoreCommand(...)和 ObjectContext.ExecuteSto ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...