大數據學習的三個“敲門磚”

-Advertisement-

“第一磚”從相認到相識什麼是大數據？可能有人會說寫字樓的所有人的資料信息就是個大數據。NO！這裡的數據只能說比較大，但卻不能稱之為大數據。百度百科上給出了很明確的解釋“大數據（big data），指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策 ...

“第一磚”從相認到相識

什麼是大數據？可能有人會說寫字樓的所有人的資料信息就是個大數據。NO！這裡的數據只能說比較大，但卻不能稱之為大數據。百度百科上給出了很明確的解釋“大數據（big data），指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。”

大數據學習的三個“敲門磚”

大數據學習資料分享群119599574

大數據有五個特點（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多樣）、Value（低價值密度）、Veracity（真實性）。其中Volume就是普遍認為的數據足夠大，因此數據大並不能說就是大數據，話句話說數據大隻是大數據其中的一個特點。

大數據技術的戰略意義不在於掌握龐大的數據信息，而在於對這些含有意義的數據進行專業化處理。換而言之，如果把大數據比作一種產業，那麼這種產業實現盈利的關鍵，在於提高對數據的“加工能力”，通過“加工”實現數據的“增值”。

現在我們“從相認到相識”，清楚的認識什麼是大數據，如果區分大數據和數據大，是我們學習大數據走的第一步。

“第二磚”拜師學藝，融匯百家

擁有了“第一磚”後就是你即將選擇師門的時候了，敲開山門的“第二磚”則是學習大數據的基礎，就如同在門派中修煉內功，有助你行走江湖，話不多說我們來看看會涉及到哪些基礎吧！

大數據學習的三個“敲門磚”

1、 javaSE，EE(SSM)

90%的大數據框架都是java寫的。

如：MongoDB--最受歡迎的，跨平臺的，面向文檔的資料庫。 Hadoop--用Java編寫的開源軟體框架，用於分散式存儲，並對非常大的數據集進行分散式處理。

Spark --Apache Software Foundation中最活躍的項目，是一個開源集群計算框架。

Hbase--開放源代碼，非關係型，分散式資料庫，採用Google的BigTable建模，用Java編寫，併在HDFS上運行。

2、 MySQL（必須需要掌握的）

SQLon Hadoop又分：

batch SQL（Hive）：一般用於複雜的 ETL 處理，數據挖掘，高級分析;

interactive SQL：互動式 SQL 查詢，通常在同一個表上反覆的執行不同的查詢；

operation SQL：通常是單點查詢，延時要求小於 1 秒，該類系統主要是HBase。

3、Linux

Linux（一種操作系統，程式員必須掌握的，我的博客里有我對Linux的介紹）大數據的框架安裝在Linux操作系統上

“第三磚”進階提高，力輓狂瀾

學習了大數據基礎後，我們要做到就是在實際的數據分析上，如何去解決問題，所以如何分析數據就是我們的重點了，在數據中分析出有利於我們的數據則是我們的目標，小編我總結了以下幾種方法，供大家參考，但方法是死的，人是活的，如何融會貫通就靠我們自己不斷是嘗試學習哦！

1、大數據離線分析

一般處理T+1數據（T是指日、周、月、年），處理歷史數據

模塊1：Hadoop

包括四大塊（common、yarn、MapReduce、HDFS）

主要掌握環境搭建、處理數據的思想

模塊2：Hive

大數據數據倉庫

通過寫SQL對數據進行操作，類似於mysql資料庫中的sql

模塊3：HBase

基於HDFS的NOSQL資料庫面向列的存儲

2、大數據機器學習

spark MLlib:機器學習庫

pyspark編程：Python和spark的結合

推薦系統

python數據分析

Python機器學習

總結：學習大數據的三個“敲門磚”，希望能對大數據有興趣的朋友一種啟髮式作用，方法的學習還需要在有興趣的基礎上刻苦專研、融會貫通。大數據學習資料分享群119599574

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

搭建MHA時 yum 安裝perl模塊提示 baseurl 錯誤

今天在搭建MySQL MHA 安裝MHA node所需的perl模塊（DBD:mysql）時遇到了一個小的錯誤，如果思路不對的話，還是產生不少麻煩。現梳理記錄下來。問題現象執行的命令 yum install perl-DBD-MySQL -y 報錯信息如下：可以看出錯誤的關鍵字為：Cann ...
mssql 存儲過程調用另一個存儲過程中的結果的方法分享

轉自:http://www.maomao365.com/?p=6801 摘要: 下文將分享"一個存儲過程"中如何調用"另一個存儲過程的返回結果",並應用到自身的運算中在實際開發中，我們經常會遇到在一個存儲過程中調用另一個存儲過程的返回結果(存儲過程相互應用)，實現思路:主要採用臨時表將存儲過程返回 ...
mysql 開發進階篇系列 44 物理備份與恢復( 熱備份xtrabackup 工具介紹)

一.概述物理備份和恢復又分為冷備份和熱備份。與邏輯備份相比，它最大優點是備份和恢復的速度更快。因為物理備份的原理都是基於文件的cp。 1.1 冷備份冷備份就是停掉資料庫服務。這種物理備份一般很少使用，因為很多應用是不允許長時間停機的。恢復操作大概是：首先停掉mysql服務，在操作系統級別恢復m ...
oracle導出sequences

將某個用戶的全部sequence查詢出來，並拼成創建語句： PS:：其中SCOTT是需要導出sequence的用戶，並且使用該腳本的用戶需要有訪問dba_sequences的許可權。將本用戶下全部sequence查詢出來，並拼成創建語句：轉：https://www.2cto.com/databas ...
mysql5.6亂碼

安裝MySql5.6版本遇到一個問題，字元集亂碼，如下圖由於是新安裝的本地資料庫，所以一定是配置的事情，查詢資料庫字元集配置，如下： show VARIABLES like '%char%'; 有兩個是latin1的字元集，本人是window7環境，在網路找了很多資料，都顯示為修改 C:\Prog ...
Oracle恢復誤刪數據

1.先查出被刪除的時間點： select * from flashback_transaction_query where table_name='表名'; 2.根據時間點恢複數據： insert into 表名 select * from 表名 as of timestamp to_timesta... ...
SQLServer之修改索引

使用SSMS資料庫管理工具修改索引使用表設計器修改索引表設計器可以修改任何類型的索引，修改索引的步驟相同，本示例為修改唯一非聚集索引。 1、連接資料庫，選擇資料庫，選擇數據表-》右鍵點擊表-》選擇設計。 2、在表設計器視窗-》選擇要修改的數據列-》右鍵點擊-》選擇要修改的索引類型。 3、在彈出框 ...
P2P借款人信用風險實時監控模型設計

P2P網路貸款(“peer-to-peer”)為中小企業和個人提供了便利的融資渠道。近年來，隨著互聯網金融的逐步發展，P2P網貸已成為時下炙手可熱的互聯網金融新模式。憑藉著“高收益”的理財優勢，各類P2P網貸平臺呈現逐年增長的態勢。目前，我國正常運行P2P平臺數量已達近3000家，累計成交量約800... ...