大數據學習路線,來qun里分享乾貨,

来源:https://www.cnblogs.com/baijindashuju/archive/2019/05/15/10870016.html
-Advertisement-
Play Games

一、Linux lucene: 全文檢索引擎的架構 solr: 基於lucene的全文搜索伺服器,實現了可配置、可擴展並對查詢性能進行了優化,並且提供了一個完善的功能管理界面。 推薦一個大數據學習群 142974151每天晚上20:10都有一節【免費的】大數據直播課程,專註大數據分析方法,大數據編程 ...


一、Linux

lucene: 全文檢索引擎的架構

solr: 基於lucene的全文搜索伺服器,實現了可配置、可擴展並對查詢性能進行了優化,並且提供了一個完善的功能管理界面。

推薦一個大數據學習群 142974151每天晚上20:10都有一節【免費的】大數據直播課程,專註大數據分析方法,大數據編程,大數據倉庫,大數據案例,人工智慧,數據挖掘都是純乾貨分享,

二、Hadoop

HDFS: 分散式存儲系統,包含NameNode,DataNode。NameNode:元數據,DataNode。DataNode:存數數據。

yarn: 可以理解為MapReduce的協調機制,本質就是Hadoop的處理分析機制,分為ResourceManager NodeManager。

MapReduce: 軟體框架,編寫程式。

Hive: 數據倉庫 可以用SQL查詢,可以運行Map/Reduce程式。用來計算趨勢或者網站日誌,不應用於實時查詢,需要很長時間返回結果。

HBase: 資料庫。非常適合用來做大數據的實時查詢。Facebook用Hbase存儲消息數據併進行消息實時的分析

ZooKeeper: 針對大型分散式的可靠性協調系統。Hadoop的分散式同步等靠Zookeeper實現,例如多個NameNode,active standby切換。

Sqoop: 資料庫相互轉移,關係型資料庫和HDFS相互轉移

Mahout: 可擴展的機器學習和數據挖掘庫。用來做推薦挖掘,聚集,分類,頻繁項集挖掘。

Chukwa: 開源收集系統,監視大型分散式系統,建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。

Ambari: 用於配置、管理和監視Hadoop集群,基於Web,界面友好。

 

三、Cloudera

Cloudera Manager: 管理 監控 診斷 集成

Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera對Hadoop做了相應的改變,發行版本稱為CDH。

Cloudera Flume: 日誌收集系統,支持在日誌系統中定製各類數據發送方,用來收集數據。

Cloudera Impala: 對存儲在Apache Hadoop的HDFS,HBase的數據提供直接查詢互動的SQL。

Cloudera hue: web管理器,包括hue ui,hui server,hui db。hue提供所有CDH組件的shell界面的介面,可以在hue編寫mr。

 

四、機器學習/R

R: 用於統計分析、繪圖的語言和操作環境,目前有Hadoop-R

mahout: 提供可擴展的機器學習領域經典演算法的實現,包括聚類、分類、推薦過濾、頻繁子項挖掘等,且可通過Hadoop擴展到雲中。

 

五、storm

Storm: 分散式,容錯的實時流式計算系統,可以用作實時分析,線上機器學習,信息流處理,連續性計算,分散式RPC,實時處理消息並更新資料庫。

Kafka: 高吞吐量的分散式發佈訂閱消息系統,可以處理消費者規模的網站中的所有動作流數據(瀏覽,搜索等)。相對Hadoop的日誌數據和離線分析,可以實現實時處理。目前通過Hadoop的並行載入機制來統一線上和離線的消息處理

Redis: 由c語言編寫,支持網路、可基於記憶體亦可持久化的日誌型、key-value型資料庫。

 

六、Spark

Scala: 一種類似java的完全面向對象的編程語言。

jblas: 一個快速的線性代數庫(JAVA)。基於BLAS與LAPACK,矩陣計算實際的行業標準,並使用先進的基礎設施等所有的計算程式的ATLAS藝術的實現,使其非常快。

Spark: Spark是在Scala語言中實現的類似於Hadoop MapReduce的通用並行框架,除了Hadoop MapReduce所具有的優點,但不同於MapReduce的是job中間輸出結果可以保存在記憶體中,從而不需要讀寫HDFS,因此Spark能更好的適用於數據挖掘與機器學習等需要迭代的MapReduce演算法。可以和Hadoop文件系統並行運作,用過Mesos的第三方集群框架可以支持此行為。

Spark SQL: 作為Apache Spark大數據框架的一部分,可用於結構化數據處理並可以執行類似SQL的Spark數據查詢

Spark Streaming:一種構建在Spark上的實時計算框架,擴展了Spark處理大數據流式數據的能力。

Spark MLlib: MLlib是Spark是常用的機器學習演算法的實現庫,目前(2014.05)支持二元分類,回歸,聚類以及協同過濾。同時也包括一個底層的梯度下降優化基礎演算法。MLlib以來jblas線性代數庫,jblas本身以來遠程的Fortran程式。

Spark GraphX: GraphX是Spark中用於圖和圖並行計算的API,可以在Spark之上提供一站式數據解決方案,可以方便且高效地完成圖計算的一整套流水作業。

Fortran: 最早出現的電腦高級程式設計語言,廣泛應用於科學和工程計算領域。

BLAS: 基礎線性代數子程式庫,擁有大量已經編寫好的關於線性代數運算的程式。

LAPACK: 著名的公開軟體,包含了求解科學與工程計算中最常見的數值線性代數問題,如求解線性方程組、線性最小二乘問題、特征值問題和奇異值問題等。

ATLAS: BLAS線性演算法庫的優化版本。

Spark Python: Spark是由scala語言編寫的,但是為了推廣和相容,提供了java和python介面。

六、Python

Python: 一種面向對象的、解釋型電腦程式設計語言。

 

七、雲計算平臺

Docker: 開源的應用容器引擎

kvm: (Keyboard Video Mouse)

openstack:  開源的雲計算管理平臺項目





您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 龍芯1D是超聲波熱表、水錶和氣表測量專用 SoC 晶元。該晶元集成超聲波時間測量、超聲波脈衝發生器、溫度測量單元、CPU、串口、紅外收發器、段式LCD 控制器、電壓檢測單元、空管檢測單元、超聲波換能器斷線檢測等功能部件,配合完善的編程、模擬、調試環境,將會大大簡化超聲波熱表測量系統的軟硬體設計。 龍 ...
  • Vim編輯器作用:編輯文本文檔的(但預設是沒有安裝的) 需要yum進行安裝 啟動方式 vim 文件名字 有三種模式:命令模式,末行模式,輸入模式 命令模式:只能查看內容 輸入模式:可以對內容進行修改 末行模式:可以對內容執行命令 i :在游標所在位置的前方插入字元 a :在游標所在位置的後方插入字元 ...
  • 以前曾經做過練習《T-SQL PIVOT 行列轉換》https://www.cnblogs.com/insus/archive/2011/03/05/1971446.html 今天把拿出來,再練習。 以前透視列,需要手動指定。是否可以動態拿到呢? 看看下麵的演示: 在實現之前,得先參考這篇《列值轉換 ...
  • select 用於從數據看查詢數據。語法 * 是通配符表示查詢所有欄位。如果要查特定的欄位時,不要使用*,影響查詢效率。 1.1.2 distinct 去重 把重覆性的記錄去掉,只保留一條。 修飾多欄位時,多個欄位的值都不一樣才保留。 1.1.3 where 子句 where 表示查詢的條件。 [1 ...
  • 安裝SQL資料庫時遇到問題。需要更新以前的visual studio 2010實例此電腦安裝了需要service pack 1更新的visual 2010,必須安裝此更新才能成功安裝選擇的SQL server 功能。若要繼續,從SQL介質或者從http://go.microsoft.com/fwl ...
  • 本文參考-https://www.cnblogs.com/xxaxx/p/3584036.html oracle沒有像sqlserver中identity一樣的函數,需要依賴於序列、觸發器來實現自增主鍵。 創建表 Create table t_user( pk_user number(6), use ...
  • 1 資料庫基本操作? (1) 查看資料庫 show databases; (2)切換到指定的資料庫 use dbname; (3)創建資料庫 create database 庫名 charset=utf8; (4)刪除資料庫 drop database 庫名; 2 數據表基本操作? (1) 查看當前 ...
  • 在動態編程中,我們需要獲取表的結構數據,如表名,數據類型,精度等數據。你可以參考下麵幾行代碼: DECLARE @table_Name SYSNAME = 'Q' SELECT t.TABLE_NAME, c.COLUMN_NAME, c.DATA_TYPE, c.NUMERIC_PRECISION ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...