資源列表: 關係資料庫管理系統(RDBMS) 框架 分散式編程 分散式文件系統 文件數據模型 Key -Map 數據模型 鍵-值數據模型 圖形數據模型 NewSQL資料庫 列式資料庫 時間序列資料庫 類SQL處理 數據攝取 服務編程 調度 機器學習 基準測試 安全性 系統部署 應用程式 搜索引擎與框 ...
資源列表:
關係資料庫管理系統(RDBMS)
框架
分散式編程
分散式文件系統
文件數據模型
Key -Map 數據模型
鍵-值數據模型
圖形數據模型
NewSQL資料庫
列式資料庫
時間序列資料庫
類SQL處理
數據攝取
服務編程
調度
機器學習
基準測試
安全性
系統部署
應用程式
搜索引擎與框架
MySQL的分支和演化
PostgreSQL的分支和演化
Memcached的分支和演化
嵌入式資料庫
商業智能
數據可視化
物聯網和感測器
文章
論文
視頻
有一句話叫做三人行必有我師,其實做為一個開發者,有一個學習的氛圍
跟一個交流圈子特別重要這是一個我的大數據交流學習群531629188
不管你是小白還是大牛歡迎入駐,正在求職的也可以加入
,大家一起交流學習,話糙理不糙,互相學習,共同進步,一起加油吧。
關係資料庫管理系統(RDBMS)
MySQL:世界最流行的開源資料庫;
PostgreSQL:世界最先進的開源資料庫;
Oracle 資料庫:對象-關係型資料庫管理系統。
框架
Apache Hadoop:分散式處理架構,結合了 MapReduce(並行處理)、YARN(作業調度)和HDFS(分散式文件系統);
Tigon:高吞吐量實時流處理框架。
分散式編程
AddThis Hydra:最初在AddThis上開發的分散式數據處理和存儲系統;
AMPLab SIMR:用在Hadoop MapReduce v1上運行Spark;
Apache Beam:為統一的模型以及一套用於定義和執行數據處理工作流的特定SDK語言;
Apache Crunch:一個簡單的Java API,用於執行在普通的MapReduce實現時比較單調的連接、數據聚合等任務;
Apache DataFu:由LinkedIn開發的針對Hadoop and 和Pig的用戶定義的函數集合;
Apache Flink:具有高性能的執行時間和自動程式優化;
Apache Gora:記憶體中的數據模型和持久性框架;
Apache Hama:BSP(整體同步並行)計算框架;
Apache MapReduce:在集群上使用並行、分散式演算法處理大數據集的編程模型;
Apache Pig:Hadoop中,用於處理數據分析程式的高級查詢語言;
Apache REEF:用來簡化和統一低層大數據系統的保留性評估執行框架;
Apache S4:S4中流處理與實現的框架;
Apache Spark:記憶體集群計算框架;
Apache Spark Streaming:流處理框架,同時是Spark的一部分;
Apache Storm:Twitter流處理框架,也可用於YARN;
Apache Samza:基於Kafka和YARN的流處理框架;
Apache Tez:基於YARN,用於執行任務中的複雜DAG(有向無環圖);
Apache Twill:基於YARN的抽象概念,用於減少開發分散式應用程式的複雜度;
Cascalog:數據處理和查詢庫;
Cheetah:在MapReduce之上的高性能、自定義數據倉庫;
Concurrent Cascading:在Hadoop上的數據管理/分析框架;
Damballa Parkour:用於Clojure的MapReduce庫;
Datasalt Pangool:可選擇的MapReduce範例;
DataTorrent StrAM:為實時引擎,用於以儘可能暢通的方式、最小的開支和對性能最小的影響,實現分散式、非同步、實時的記憶體大數據計算;
Facebook Corona:為Hadoop做優化處理,從而消除單點故障;
Facebook Peregrine:MapReduce框架;
Facebook Scuba:分散式記憶體數據存儲;
Google Dataflow:創建數據管道,以幫助其分析框架;
Netflix PigPen:為MapReduce,用於編譯成Apache Pig;
Nokia Disco:由Nokia開發的MapReduc獲取、轉換和分析數據;
Google MapReduce:MapReduce框架;
Google MillWheel:容錯流處理框架;
JAQL:用於處理結構化、半結構化和非結構化數據工作的聲明性編程語言;
Kite:為一組庫、工具、實例和文檔集,用於使在Hadoop的生態系統上建立系統更加容易;
Metamarkets Druid:用於大數據集的實時e框架;
Onyx:分散式雲計算;
Pinterest Pinlater:非同步任務執行系統;
Pydoop:用於Hadoop的Python MapReduce和HDFS API;
Rackerlabs Blueflood:多租戶分散式測度處理系統;
Stratosphere:通用集群計算框架;
Streamdrill:用於計算基於不同時間視窗的事件流的活動,並找到最活躍的一個;
Tuktu:易於使用的用於分批處理和流計算的平臺,通過Scala、 Akka和Play所建;
Twitter Scalding:基於Cascading,用於Map Reduce工作的Scala庫;
Twitter Summingbird:在Twitter上使用Scalding和Storm串流MapReduce;
Twitter TSAR:Twitter上的時間序列聚合器。
分散式文件系統
Apache HDFS:在多台機器上存儲大型文件的方式;
BeeGFS:以前是FhGFS,並行分散式文件系統;
Ceph Filesystem:設計的軟體存儲平臺;
Disco DDFS:分散式文件系統;
Facebook Haystack:對象存儲系統;
Google Colossus:分散式文件系統(GFS2);
Google GFS:分散式文件系統;
Google Megastore:可擴展的、高度可用的存儲;
GridGain:相容GGFS、Hadoop記憶體的文件系統;
Lustre file system:高性能分散式文件系統;
Quantcast File System QFS:開源分散式文件系統;
Red Hat GlusterFS:向外擴展的附網存儲(Network-attached Storage)文件系統;
Seaweed-FS:簡單的、高度可擴展的分散式文件系統;
Alluxio:以可靠的存儲速率在跨集群框架上文件共用;
Tahoe-LAFS:分散式雲存儲系統;
文件數據模型
Actian Versant:商用的面向對象資料庫管理系統;
Crate Data:是一個開源的大規模可擴展的數據存儲,需要零管理模式;
Facebook Apollo:Facebook的Paxos演算法,類似於NoSQL資料庫;
jumboDB:基於Hadoop的面向文檔的數據存儲;
LinkedIn Espresso:可橫向擴展的面向文檔的NoSQL數據存儲;
MarkLogic:模式不可知的企業版NoSQL資料庫技術;
MongoDB:面向文檔的資料庫系統;
RavenDB:一個事務性的,開源文檔資料庫;
RethinkDB:支持連接查詢和群組依據等查詢的文檔型資料庫。
Key Map 數據模型
註意:業記憶體在一些術語混亂,有兩個不同的東西都叫做“列式資料庫”。這裡列出的有一些是圍繞“key-map”數據模型而建的分散式、持續型資料庫,其中所有的數據都有(可能綜合了)鍵,並與映射中的鍵-值對相關聯。在一些系統中,多個這樣的值映射可以與鍵相關聯,並且這些映射被稱為“列族”(具有映射值的鍵被稱為“列”)。
另一組也可稱為“列式資料庫”的技術因其存儲數據的方式而有別於前一組,它在磁碟上或在存儲器中——而不是以傳統方式,即所有既定鍵的鍵值都相鄰著、逐行存儲。這些系統也彼此相鄰來存儲所有列值,但是要得到給定列的所有值卻不需要以前那麼繁複的工作。
前一組在這裡被稱為“key map數據模型”,這兩者和Key-value 數據模型之間的界限是相當模糊的。後者對數據模型有更多的存儲格式,可在列式資料庫中列出。若想瞭解更多關於這兩種模型的區分,可閱讀Daniel Abadi的博客:Distinguishing two major types of Column Stores。
Apache Accumulo:內置在Hadoop上的分散式鍵/值存儲;
Apache Cassandra:由BigTable授權,面向列的分散式數據存儲;
Apache HBase:由BigTable授權,面向列的分散式數據存儲;
Facebook HydraBase:Facebook所開發的HBase的衍化品;
Google BigTable:面向列的分散式數據存儲;
Google Cloud Datastore:為完全管理型的無模式資料庫,用於存儲在BigTable上非關係型數據;
Hypertable:由BigTable授權,面向列的分散式數據存儲;
InfiniDB:通過MySQL的介面訪問,並使用大規模並行處理進行並行查詢;
Tephra:用於HBase處理;
Twitter Manhattan:Twitter的實時、多租戶分散式資料庫。
鍵-值數據模型
Aerospike:支持NoSQL的快閃記憶體優化,數據存儲在記憶體。開源,“’C’(不是Java或Erlang)中的伺服器代碼可精確地調整從而避免上下文切換和記憶體拷貝”。
Amazon DynamoDB:分散式鍵/值存儲,Dynamo論文的實現;
Edis:為替代Redis的協議相容的伺服器;
ElephantDB:專門研究Hadoop中數據導出的分散式資料庫;
EventStore:分散式時間序列資料庫;
GridDB:適用於存儲在時間序列中的感測器數據;
LinkedIn Krati:簡單的持久性數據存儲,擁有低延遲和高吞吐量;
Linkedin Voldemort:分散式鍵/值存儲系統;
Oracle NoSQL Database:Oracle公司開發的分散式鍵值資料庫;
Redis:記憶體中的鍵值數據存儲;
Riak:分散式數據存儲;
Storehaus:Twitter開發的非同步鍵值存儲的庫;
Tarantool:一個高效的NoSQL資料庫和Lua應用伺服器;
TiKV:由Google Spanner和HBase授權,Rust提供技術支持的分散式鍵值資料庫;
TreodeDB:可複製、共用的鍵-值存儲,能提供多行原子寫入。
圖形數據模型
Apache Giraph:基於Hadoop的Pregel實現;
Apache Spark Bagel:可實現Pregel,為Spark的一部分;
ArangoDB:多層模型分散式資料庫;
DGraph:一個可擴展的、分散式、低時延、高吞吐量的圖形資料庫,旨在為Google生產水平規模和吞吐量提供足夠的低延遲,用於TB級的結構化數據的實時用戶查詢;
Facebook TAO:TAO是facebook廣泛用來存儲和服務於社交圖形的分散式數據存儲;
GCHQ Gaffer:GCHQ中的Gaffer是一個易於存儲大規模圖形的框架,其中節點和邊緣都有統計數據;
Google Cayley:開源圖形資料庫;
Google Pregel:圖形處理框架;
GraphLab PowerGraph:核心C ++ GraphLab API和建立在GraphLab API之上的高性能機器學習和數據挖掘工具包的集合;
GraphX:Spark中的彈性分散式圖形系統;
Gremlin:圖形追蹤語言;
Infovore:以RDF為中心的Map / Reduce框架;
Intel GraphBuilder:在Hadoop上構建大規模圖形的工具;
MapGraph:用於在GPU上大規模並行圖形處理;
Neo4j:完全用Java寫入的圖形資料庫;
OrientDB:文檔和圖形資料庫;
Phoebus:大型圖形處理框架;
Titan:建於Cassandra的分散式圖形資料庫;
Twitter FlockDB:分散式圖形資料庫。
NewSQL資料庫
Actian Ingres:由商業支持,開源的SQL關係資料庫管理系統;
Amazon RedShift:基於PostgreSQL的數據倉庫服務;
BayesDB:面向統計數值的SQL資料庫;
CitusDB:通過分區和複製橫向擴展PostgreSQL;
Cockroach:可擴展、地址可複製、交易型的資料庫;
Datomic:旨在產生可擴展、靈活的智能應用的分散式資料庫;
FoundationDB:由F1授意的分散式資料庫;
Google F1:建立在Spanner上的分散式SQL資料庫;
Google Spanner:全球性的分散式半關係型資料庫;
H-Store:是一個實驗性主存並行資料庫管理系統,用於聯機事務處理(OLTP)應用的優化;
Haeinsa:基於Percolator,HBase的線性可擴展多行多表交易庫;
HandlerSocket:MySQL/MariaDB的NoSQL插件;
InfiniSQL:無限可擴展的RDBMS;
MemSQL:記憶體中的SQL資料庫,其中有優化的快閃記憶體列存儲;
NuoDB:SQL / ACID相容的分散式資料庫;
Oracle TimesTen in-Memory Database:記憶體中具有持久性和可恢復性的關係型資料庫管理系統;
Pivotal GemFire XD:記憶體中低延時的分散式SQL數據存儲,可為記憶體列表數據提供SQL介面,在HDFS中較持久化;
SAP HANA:是在記憶體中面向列的關係型資料庫管理系統;
SenseiDB:分散式實時半結構化的資料庫;
Sky:用於行為數據的靈活、高性能分析的資料庫;
SymmetricDS:用於文件和資料庫同步的開源軟體;
Map-D:為GPU記憶體資料庫,也為大數據分析和可視化平臺;
TiDB:TiDB是分散式SQL資料庫,基於谷歌F1的設計靈感;
VoltDB:自稱為最快的記憶體資料庫。
列式資料庫
註意:請在鍵-值數據模型閱讀相關註釋。
Columnar Storage:解釋什麼是列存儲以及何時會需要用到它;
Actian Vector:面向列的分析型資料庫;
C-Store:面向列的DBMS;
MonetDB:列存儲資料庫;
Parquet:Hadoop的列存儲格式;
Pivotal Greenplum:專門設計的、專用的分析數據倉庫,類似於傳統的基於行的工具,提供了一個列式工具;
Vertica:用來管理大規模、快速增長的大量數據,當用於數據倉庫時,能夠提供非常快的查詢性能;
Google BigQuery:谷歌的雲產品,由其在Dremel的創始工作提供支持;
Amazon Redshift:亞馬遜的雲產品,它也是基於柱狀數據存儲後端。
時間序列資料庫
Cube:使用MongoDB來存儲時間序列數據;
Axibase Time Series Database:在HBase之上的分散式時間序列資料庫,它包括內置的Rule Engine、數據預測和可視化;
Heroic:基於Cassandra和Elasticsearch的可擴展的時間序列資料庫;
InfluxDB:分散式時間序列資料庫;
Kairosdb:類似於OpenTSDB但會考慮到Cassandra;
OpenTSDB:在HBase上的分散式時間序列資料庫;
Prometheus:一種時間序列資料庫和服務監測系統;
Newts:一種基於Apache Cassandra的時間序列資料庫。
類SQL處理
Actian SQL for Hadoop:高性能互動式的SQL,可訪問所有的Hadoop數據;
Apache Drill:由Dremel授意的互動式分析框架;
Apache HCatalog:Hadoop的表格和存儲管理層;
Apache Hive:Hadoop的類SQL數據倉庫系統;
Apache Optiq:一種框架,可允許高效的查詢翻譯,其中包括異構性及聯合性數據的查詢;
Apache Phoenix:Apache Phoenix 是 HBase 的 SQL 驅動;
Cloudera Impala:由Dremel授意的互動式分析框架;
Concurrent Lingual:Cascading中的類SQL查詢語言;
Datasalt Splout SQL:用於大數據集的完整的SQL查詢工具;
Facebook PrestoDB:分散式SQL查詢工具;
Google BigQuery:互動式分析框架,Dremel的實現;
Pivotal HAWQ:Hadoop的類SQL的數據倉庫系統;
RainstorDB:用於存儲大規模PB級結構化和半結構化數據的資料庫;
Spark Catalyst:用於Spark和Shark的查詢優化框架;
SparkSQL:使用Spark操作結構化數據;
Splice Machine:一個全功能的Hadoop上的SQL RDBMS,並帶有ACID事務;
Stinger:用於Hive的互動式查詢;
Tajo:Hadoop的分散式數據倉庫系統;
Trafodion:為企業級的SQL-on-HBase針對大數據的事務或業務工作負載的解決方案。
數據攝取
Amazon Kinesis:大規模數據流的實時處理;
Apache Chukwa:數據採集系統;
Apache Flume:管理大量日誌數據的服務;
Apache Kafka:分散式發佈-訂閱消息系統;
Apache Sqoop:在Hadoop和結構化的數據存儲區之間傳送數據的工具;
Cloudera Morphlines:幫助 Solr、HBase和HDFS完成ETL的框架;
Facebook Scribe:流日誌數據聚合器;
Fluentd:採集事件和日誌的工具;
Google Photon:實時連接多個數據流的分散式電腦系統,具有高可擴展性和低延遲性;
Heka:開源流處理軟體系統;
HIHO:用Hadoop連接不同數據源的框架;
Kestrel:分散式消息隊列系統;
LinkedIn Databus:對資料庫更改捕獲的事件流;
LinkedIn Kamikaze:壓縮已分類整型數組的程式包;
LinkedIn White Elephant:日誌聚合器和儀錶板;
Logstash:用於管理事件和日誌的工具;
Netflix Suro:像基於Chukwa 的Storm和Samza一樣的日誌聚合器;
Pinterest Secor:是實現Kafka日誌持久性的服務;
Linkedin Gobblin:LinkedIn的通用數據攝取框架;
Skizze:是一種數據存儲略圖,使用概率性數據結構來處理計數、略圖等相關的問題;
StreamSets Data Collector:連續大數據採集的基礎設施,可簡單地使用IDE。
服務編程
Akka Toolkit:JVM中分佈性、容錯事件驅動應用程式的運行時間;
Apache Avro:數據序列化系統;
Apache Curator:Apache ZooKeeper的Java庫;
Apache Karaf:在任何OSGi框架之上運行的OSGi運行時間;
Apache Thrift:構建二進位協議的框架;
Apache Zookeeper:流程管理集中式服務;
Google Chubby:一種松耦合分散式系統鎖服務;
Linkedin Norbert:集群管理器;
OpenMPI:消息傳遞框架;
Serf:服務發現和協調的分散化解決方案;
Spotify Luigi:一種構建批處理作業的複雜管道的Python包,它能夠處理依賴性解析、工作流管理、可視化、故障處理、命令行一體化等等問題;
Spring XD:數據攝取、實時分析、批量處理和數據導出的分散式、可擴展系統;
Twitter Elephant Bird:LZO壓縮數據的工作庫;
Twitter Finagle:JVM的非同步網路堆棧。
調度
Apache Aurora:在Apache Mesos之上運行的服務調度程式;
Apache Falcon:數據管理框架;
Apache Oozie:工作流作業調度程式;
Chronos:分散式容錯調度;
Linkedin Azkaban:批處理工作流作業調度;
Schedoscope:Hadoop作業敏捷調度的Scala DSL;
Sparrow:調度平臺;
Airflow:一個以編程方式編寫、調度和監控工作流的平臺。
機器學習
Apache Mahout:Hadoop的機器學習庫;
brain:JavaScript中的神經網路;
Cloudera Oryx:實時大規模機器學習;
Concurrent Pattern:Cascading的機器學習庫;
convnetjs:Javascript中的機器學習,在瀏覽器中訓練捲積神經網路(或普通網路);
Decider:Ruby中靈活、可擴展的機器學習;
ENCOG:支持多種先進演算法的機器學習框架,同時支持類的標準化和處理數據;
etcML:機器學習文本分類;
Etsy Conjecture:Scalding中可擴展的機器學習;
Google Sibyl:Google中的大規模機器學習系統;
GraphLab Create:Python的機器學習平臺,包括ML工具包、數據工程和部署工具的廣泛集合;
H2O:Hadoop統計性的機器學習和數學運行時間;
MLbase:用於BDAS堆棧的分散式機器學習庫;
MLPNeuralNet:針對iOS和Mac OS X的快速多層感知神經網路庫;
MonkeyLearn:使文本挖掘更為容易,從文本中提取分類數據;
nupic:智能計算的Numenta平臺,它是一個啟發大腦的機器智力平臺,基於皮質學習演算法的精準的生物神經網路;
PredictionIO:建於Hadoop、Mahout和Cascading上的機器學習伺服器;
SAMOA:分散式流媒體機器學習框架;
scikit-learn:scikit-learn為Python中的機器學習;
Spark MLlib:Spark中一些常用的機器學習(ML)功能的實現;
Vowpal Wabbit:微軟和雅虎發起的學習系統;
WEKA:機器學習軟體套件;
BidMach:CPU和加速GPU的機器學習庫。
基準測試
Apache Hadoop Benchmarking:測試Hadoop性能的微基準;
Berkeley SWIM Benchmark:現實大數據工作負載基準測試;
Intel HiBench:Hadoop基準測試套件;
PUMA Benchmarking:MapReduce應用的基準測試套件;
Yahoo Gridmix3:雅虎工程師團隊的Hadoop集群基準測試。
安全性
Apache Knox Gateway:Hadoop集群安全訪問的單點;
Apache Sentry:存儲在Hadoop的數據安全模塊。
系統部署
Apache Ambari:Hadoop管理的運作框架;
Apache Bigtop:Hadoop生態系統的部署框架;
Apache Helix:集群管理框架;
Apache Mesos:集群管理器;
Apache Slider:一種YARN應用,用來部署YARN中現有的分散式應用程式;
Apache Whirr:運行雲服務的庫集;
Apache YARN:集群管理器;
Brooklyn:用於簡化應用程式部署和管理的庫;
Buildoop:基於Groovy語言,和Apache BigTop類似;
Cloudera HUE:和Hadoop進行交互的Web應用程式;
Facebook Prism:多數據中心複製系統;
Google Borg:作業調度和監控系統;
Google Omega:作業調度和監控系統;
Hortonworks HOYA:可在YARN上部署HBase集群的應用;
Marathon:用於長期運行服務的Mesos框架。
應用程式
Adobe spindle:使用Scala、Spark和Parquet處理的下一代web分析;
Apache Kiji:基於HBase,實時採集和分析數據的框架;
Apache Nutch:開源網路爬蟲;
Apache OODT:用於NASA科學檔案中數據的捕獲、處理和共用;
Apache Tika:內容分析工具包;
Argus:時間序列監測和報警平臺;
Countly:基於Node.js和MongoDB,開源的手機和網路分析平臺;
Domino:運行、規劃、共用和部署模型——沒有任何基礎設施;
Eclipse BIRT:基於Eclipse的報告系統;
Eventhub:開源的事件分析平臺;
Hermes:建於Kafka上的非同步消息代理;
HIPI Library:在Hadoop’s MapReduce上執行圖像處理任務的API;
Hunk:Hadoop的Splunk分析;
Imhotep:大規模分析平臺;
MADlib:RDBMS的用於數據分析的數據處理庫;
Kylin:來自eBay的開源分散式分析工具;
PivotalR:Pivotal HD / HAWQ和PostgreSQL中的R;
Qubole:為自動縮放Hadoop集群,內置的數據連接器;
Sense:用於數據科學和大數據分析的雲平臺;
SnappyData:用於實時運營分析的分散式記憶體數據存儲,提供建立在Spark單一集成集群中的數據流分析、OLTP(聯機事務處理)和OLAP(聯機分析處理);
Snowplow:企業級網路和事件分析,由Hadoop、Kinesis、Redshift 和Postgres提供技術支持;
SparkR:Spark的R前端;
Splunk:用於機器生成的數據的分析;
Sumo Logic:基於雲的分析儀,用於分析機器生成的數據;
Talend:用於YARN、Hadoop、HBASE、Hive、HCatalog和Pig的統一開源環境;
Warp:利用大數據(OS X app)的實例查詢工具。
搜索引擎與框架
Apache Lucene:搜索引擎庫;
Apache Solr:用於Apache Lucene的搜索平臺;
ElasticSearch:基於Apache Lucene的搜索和分析引擎;
Enigma.io:為免費增值的健壯性web應用,用於探索、篩選、分析、搜索和導出來自網路的大規模數據集;
Facebook Unicorn:社交圖形搜索平臺;
Google Caffeine:連續索引系統;
Google Percolator:連續索引系統;
TeraGoogle:大型搜索索引;
HBase Coprocessor:為Percolator的實現,HBase的一部分;
Lily HBase Indexer:快速、輕鬆地搜索存儲在HBase的任何內容;
LinkedIn Bobo:完全由Java編寫的分面搜索的實現,為Apache Lucene的延伸;
LinkedIn Cleo:為一個一個靈活的軟體庫,使得局部、無序、實時預輸入的搜索實現了快速發展;
LinkedIn Galene:LinkedIn搜索架構;
LinkedIn Zoie:是用Java編寫的實時搜索/索引系統;
Sphinx Search Server:全文搜索引擎
MySQL的分支和演化
Amazon RDS:亞馬遜雲的MySQL資料庫;
Drizzle:MySQL的6.0的演化;
Google Cloud SQL:谷歌雲的MySQL資料庫;
MariaDB:MySQL的增強版嵌入式替代品;
MySQL Cluster:使用NDB集群存儲引擎的MySQL實現;
Percona Server:MySQL的增強版嵌入式替代品;