企業級大數據處理方案03-數據流程

-Advertisement-

數據處理過程分為數據挖掘和數據分析，廣義上說數據分析泛指整個過程，然而數據分析大的流程大致相同，如圖：數據挖掘一般都要經過過濾、漂洗、匹配三個過程： 1.過濾:主要將數據中的不適合分析的數據過濾掉，就好比產品流水線的殘次品一樣，對數據進行組粒度的過濾，其規則可按數據大小，字元長短； 2.漂洗：也稱 ...

數據處理過程分為數據挖掘和數據分析，廣義上說數據分析泛指整個過程，然而數據分析大的流程大致相同，如圖：

數據挖掘一般都要經過過濾、漂洗、匹配三個過程：

1.過濾:主要將數據中的不適合分析的數據過濾掉，就好比產品流水線的殘次品一樣，對數據進行組粒度的過濾，其規則可按數據大小，字元長短；

2.漂洗：也稱格式化,對數據進行分塊，數據也有組成的，有時間、數據源、數據體等等，就好比頭、身體、腳一樣。將數據變成我們想要的格式，此過程也是打標簽的過程，意將數據分類處理。

3.匹配：匹配就是抽取欄位，將數據中的有用的地方抽取出來。（正則處理）由於數據的分類太多，無法完成所有的數據的匹配，這就需要機器自動識別。註意機器學習的結果並不精準，是故數據分開存儲。

數據挖掘的過程也就是無格式數據和半格式化數據的格式化過程，換言之就是講數據規則化。

數據挖掘過程結束後，就是數據分析階段，其過程如圖：

數據分析就是sql聚合操作，將數據格式化就是為了能夠用sql語言去處理數據，換句話說就是，想怎麼分析就怎麼分析，只要你會操作資料庫。

然而數據分析也有多層面的：按照維度劃分為一維、二維、三維分析。

一維分析主要基於表查詢，多個欄位、單個欄位、topN、分組等等的聚合函數

二維分析主要基於時間，為什麼這麼說呢，基於時間的分析就會複雜，多與預測有關係（預測那肯定不能人想，得機器想）

三維分析主要基於對象，對象怎麼說，是將數據模型化，數據模型化就好比Java類一樣，構造虛擬實體，基於實體的分析。

上述維度基於上一維度來說的。

有沒有四維、五維，有木肯定有木，舉個運維的例子：

例子：伺服器運行情況

伺服器A 2016-07-09 12:00:00 CPU：90% Mem：90%

應用程式A 2016-07-09 12:00:00 CPU：40% Mem：40% （men>60%才能正常運行）

應用程式B 2016-07-09 12:00:00 CPU：40% Mem：40% （men>30%才能正常運行）

伺服器A系統 2016-07-09 12:00:00 CPU：10% Mem：10%

所以應用程式A就會運行不正常

整個數據處理流程的完整流程圖：

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Linux From Scratch（從零開始構建Linux系統，簡稱LFS）- Version 7.7

一. 準備工作 1. 需要一個Linux宿主系統，例如早先版本的 LFS，Ubuntu/Fedora，SuSE 或者是在你的架構上可以運行的其它發行版二. LFS目標架構 LFS主要支持 AMD/Intel 的 x86(32 位)和 x86_64(64 位) 的目標架構。另外，做一些更改可以讓LF ...
從Kali 2.0 轉至 Kali Rolling

1. 修改官方軟體庫列表編輯/etc/apt/sources.list，註釋掉原有內容，然後添加下述內容。 2. 執行更新命令並重啟參考鏈接： 1. Kali Linux, Rolling Edition Released – 2016.1 ...
樹莓派debian配置lamp【解決apache不顯示php】

Apache + MySql + Php． 1、安裝Apache Apache可以用下麵的命令來安裝 sudo apt-get install apache2 Apache預設路徑是/var/www/ 其配置文件路徑為： /etc/apache2/ 可以通過：sudo nano /etc/apach ...
Linux伺服器宕機案例第二則

郵件告警發現海外工廠一Linux伺服器連接不上，DPA（Database Performance Analyzer）系統也發現其出現問題，ping這台伺服器發現網路不通，聯繫不到當地系統管理員，郵件咨詢後，這個系統管理員也發現有問題，直接重啟了，事後檢查發現日誌message裡面，從10:10分開始... ...
Redis學習筆記（四）-數據類型之list類型

redis的list類型其實就是一個每個子元素都是string類型的雙向鏈表。所以[lr]push和[lr]pop命令的演算法時間複雜度都是O(1)。另外list會記錄鏈表的長度。所以llen操作也是O(1).鏈表的最大長度是(2的32次方-1)。我們可以通過push,pop操作從鏈表的頭部或者尾部添 ...
Oracle行內鏈接不會引起USER_TABLES中CHAIN_CNT值變化

前幾天和群里網友討論一個關於行內鏈接（intra-block chaining）的問題，問題非常有意思，恰好今天有空，順便整理了一下這些知識點。問題描述：下麵SQL，創建一個超過255列的表（實際為256列），然後插入幾條數據，然後對錶做ANALYZE分析過後，但是發現user_tables的CH... ...
sql-公用表表達式（CTE）

定義公用表表達式（CTE），是一個在查詢中定義的臨時命名結果集將在from子句中使用它。每個CTE僅被定義一次（但在其作用域內可以被引用任意次），並且在該查詢生存期間將一直生存。可以使用CTE來執行遞歸操作。創建的語法是： with <name of you cte>(<column names> ...
PL/SQL實現JAVA中的split()方法的小例子

眾所周知，java中為String類提供了split()字元串分割的方法，所以很容易將字元串以指定的符號分割為一個字元串數組。但是在pl/sql中並沒有提供像java中的split()方法，所以要想在pl/sql中實現字元串的分割還需要自己動手。由於在項目中需要用到此類方法，所以自己研究了一下，方便 ...