當前,整個互聯網正在從IT時代向DT時代演進,大數據技術也正在助力企業和公眾敲開DT世界大門。當今“大數據”一詞的重點其實已經不僅在於數據規模的定義,它更代表著信息技術發展進入了一個新的時代,代表著爆炸性的數據信息給傳統的計算技術和信息技術帶來的技術挑戰和困難,代表著大數據處理所需的新的技術和方法, ...
當前,整個互聯網正在從IT時代向DT時代演進,大數據技術也正在助力企業和公眾敲開DT世界大門。當今“大數據”一詞的重點其實已經不僅在於數據規模的定義,它更代表著信息技術發展進入了一個新的時代,代表著爆炸性的數據信息給傳統的計算技術和信息技術帶來的技術挑戰和困難,代表著大數據處理所需的新的技術和方法,也代表著大數據分析和應用所帶來的新發明、新服務和新的發展機遇。
為了幫助大家更好深入瞭解大數據,雲棲社區組織翻譯了GitHub Awesome Big Data資源,供大家參考。本資源類型主要包括:大數據框架、論文等實用資源集合。
資源列表:
- 關係資料庫管理系統(RDBMS)
- 框架
- 分散式編程
- 分散式文件系統
- 文件數據模型
- Key -Map 數據模型
- 鍵-值數據模型
- 圖形數據模型
- NewSQL資料庫
- 列式資料庫
- 時間序列資料庫
- 類SQL處理
- 數據攝取
- 服務編程
- 調度
- 機器學習
- 基準測試
- 安全性
- 系統部署
- 應用程式
- 搜索引擎與框架
- MySQL的分支和演化
- PostgreSQL的分支和演化
- Memcached的分支和演化
- 嵌入式資料庫
- 商業智能
- 數據可視化
- 物聯網和感測器
- 文章
- 論文
- 視頻
關係資料庫管理系統(RDBMS)
- SQLServer:世界最有活力的資料庫;
- MySQL:世界最流行的開源資料庫;
- PostgreSQL:世界最先進的開源資料庫;
- Oracle 資料庫:對象-關係型資料庫管理系統。
框架
- Apache Hadoop:分散式處理架構,結合了 MapReduce(並行處理)、YARN(作業調度)和HDFS(分散式文件系統);
- Tigon:高吞吐量實時流處理框架。
分散式編程
- AddThis Hydra :最初在AddThis上開發的分散式數據處理和存儲系統;
- AMPLab SIMR:用在Hadoop MapReduce v1上運行Spark;
- Apache Beam:為統一的模型以及一套用於定義和執行數據處理工作流的特定SDK語言;
- Apache Crunch:一個簡單的Java API,用於執行在普通的MapReduce實現時比較單調的連接、數據聚合等任務;
- Apache DataFu:由LinkedIn開發的針對Hadoop and 和Pig的用戶定義的函數集合;
- Apache Flink:具有高性能的執行時間和自動程式優化;
- Apache Gora:記憶體中的數據模型和持久性框架;
- Apache Hama:BSP(整體同步並行)計算框架;
- Apache MapReduce :在集群上使用並行、分散式演算法處理大數據集的編程模型;
- Apache Pig :Hadoop中,用於處理數據分析程式的高級查詢語言;
- Apache REEF :用來簡化和統一低層大數據系統的保留性評估執行框架;
- Apache S4 :S4中流處理與實現的框架;
- Apache Spark :記憶體集群計算框架;
- Apache Spark Streaming :流處理框架,同時是Spark的一部分;
- Apache Storm :Twitter流處理框架,也可用於YARN;
- Apache Samza :基於Kafka和YARN的流處理框架;
- Apache Tez :基於YARN,用於執行任務中的複雜DAG(有向無環圖);
- Apache Twill :基於YARN的抽象概念,用於減少開發分散式應用程式的複雜度;
- Cascalog:數據處理和查詢庫;
- Cheetah :在MapReduce之上的高性能、自定義數據倉庫;
- Concurrent Cascading :在Hadoop上的數據管理/分析框架;
- Damballa Parkour :用於Clojure的MapReduce庫;
- Datasalt Pangool :可選擇的MapReduce範例;
- DataTorrent StrAM :為實時引擎,用於以儘可能暢通的方式、最小的開支和對性能最小的影響,實現分散式、非同步、實時的記憶體大數據計算;
- Facebook Corona :為Hadoop做優化處理,從而消除單點故障;
- Facebook Peregrine :MapReduce框架;
- Facebook Scuba :分散式記憶體數據存儲;
- Google Dataflow :創建數據管道,以幫助其分析框架;
- Netflix PigPen :為MapReduce,用於編譯成Apache Pig;
- Nokia Disco :由Nokia開發的MapReduc獲取、轉換和分析數據;
- Google MapReduce :MapReduce框架;
- Google MillWheel :容錯流處理框架;
- JAQL :用於處理結構化、半結構化和非結構化數據工作的聲明性編程語言;
- Kite :為一組庫、工具、實例和文檔集,用於使在Hadoop的生態系統上建立系統更加容易;
- Metamarkets Druid :用於大數據集的實時e框架;
- Onyx :分散式雲計算;
- Pinterest Pinlater :非同步任務執行系統;
- Pydoop :用於Hadoop的Python MapReduce和HDFS API;
- Rackerlabs Blueflood :多租戶分散式測度處理系統;
- Stratosphere :通用集群計算框架;
- Streamdrill :用於計算基於不同時間視窗的事件流的活動,並找到最活躍的一個;
- Tuktu :易於使用的用於分批處理和流計算的平臺,通過Scala、 Akka和Play所建;
-