大數據預處理綜述

来源:https://www.cnblogs.com/easy1996/archive/2020/04/16/12714312.html
-Advertisement-
Play Games

數據預處理背景 大數據項目開發流程 數據質量 準確性:數據是正確的,數據存儲在資料庫中的值對應於真實世界的值。 數據不准確的原因 1. 數據收集設備故障。 2. 數據輸入錯誤。 3. 數據傳輸過程出錯。 4. 命名約定、數據輸入、輸入欄位格式不一致。 相關性:指數據與特定的應用和領域有關。 相關性應 ...


數據預處理背景

大數據項目開發流程

數據質量

  • 準確性:數據是正確的,數據存儲在資料庫中的值對應於真實世界的值。

    數據不准確的原因

    1. 數據收集設備故障。
    2. 數據輸入錯誤。
    3. 數據傳輸過程出錯。
    4. 命名約定、數據輸入、輸入欄位格式不一致。
  • 相關性:指數據與特定的應用和領域有關。

    相關性應用場景

    1. 構造預測模型時,需要採集與模型相關的數據。
    2. 相同的數據再不同的應用場景,相關性也是不一樣的。
  • 完整性:指信息具有一個實體描述的所有必需的部分,在傳統關係型資料庫中,完整性通常與空值(NULL)有關。一般包括記錄的缺失和記錄屬性的缺失。

    數據不完整原因

    1. 涉及隱私,無法獲取相關屬性。
    2. 數據輸入時由於人為疏忽。
    3. 數據輸入時由於機器故障。
  • 時效性:指數據僅在一定時間段內對決策具有價值的屬性。數據的時效性很大程度上制約了決策的客觀效果。

    相關場景:

    1. 城市交通。
    2. 商品推薦。
  • 一致性:在資料庫中,不同地方存儲和使用的同一數據應當是等價的,表示數據有相等的值和相同的含義。

    常見不一致情況

    1. 邏輯不一致。
    2. 記錄規範不一致:同一個數據,在不同的地方顯示存儲不一致,比如男女存儲。
  • 可信性可解釋性

    可行性

    1. 數據來源的權威性。
    2. 數據的規範性。
    3. 數據產生的時間。

    可解釋性

    1. 反應數據是否容易理解。

數據預處理目的

數據預處理的目的就是提升數據質量。

重要性:數據預處理是數據挖掘中必不可少的關鍵一步,更是進行數據挖掘前的準備工作。

目的

  • 達到改進數據的質量,提高數據挖掘過程的準確率和效率。
  • 保證數據挖掘的正確性和有效性。
  • 通過對數據格式和內容的調整,使得數據更符合挖掘的需要。

數據預處理的流程

1. 數據清理

清理臟數據:由於重覆錄入,併發處理等不規範的操作,導致產生不完整,不准確的,無效的數據。

1.1 缺失值處理

現有數據集中某個或某些屬性的值是不完整的。

缺失值處理方法
  1. 忽略元組
  2. 人工填寫
  3. 使用全局常量替換空缺值
  4. 屬性的中心度量來填充
  5. 使用於給定元組同一類的所有樣本中心度量值
  6. 使用最可能的值

1.2 雜訊處理

不准確的值或明顯錯誤的值。通過雜訊處理降低對數據分析和結果的分析。

雜訊數據產生
  1. 數據收集工具的問題。
  2. 數據輸入錯誤。
  3. 數據傳輸錯誤。
  4. 技術的限制。
  5. 命名規則不一致。
雜訊處理的方法:
  1. 分箱法:通過考察數據的近鄰值來光滑有序數據值。

    舉例:8、24、15、41、6、10、18、67、25等9個數。
    排序:6、8、10、15、18、24、25、41、67。
    分箱:

    ​ 箱1: 6、8、10
    ​ 箱2: 15、18、24
    ​ 箱3: 25、41、67
    分別用三種不同的分箱法求出平滑存儲數據的值:
    平均值:8 箱1: 8,8,8。
    中值: 18 箱2: 18,18,18 。
    邊界值:6、67 箱3:25,25,67,箱中的最大和最小值被視為箱邊界。

  2. 回歸

  3. 聚類

2. 數據集成

將互相關聯的分散式異構數據源集成到一起,使用戶能夠以透明的方式訪問這些數據源。

2.1 數據集成方法

  1. 聯邦資料庫:各數據源的數據視圖,集成為全局模式。
  2. 中間件集成:通過統一的全局數據模型,來訪問異構的數據源。
  3. 數據複製:將各個數據源的數據複製,到同一處,即數據倉庫。

2.2 集成過程要處理的問題

  1. 實體識別:匹配多個信息源在現實世界中的等價實體。
  2. 冗餘與相關分析:屬性重覆,屬性相關冗餘,元組重覆。
  3. 數據衝突和檢測: 對現實世界的同一實體,來自不同數據源的屬性定義不同。原因:表示方法,度量單位、編碼或比例的差異

3. 數據變換

3.1 轉換目的

將數據轉換或統一成易於進行數據挖掘的數據存儲形式,使得挖掘過程可能更有效。

3.2 方法策略

  1. 光滑:去掉數據中的噪音。
  2. 屬性構造:由給定的屬性構造新的屬性並添加到屬性集中,幫助數據分析和挖掘。
  3. 聚集:對數據進行彙總或聚集
  4. 規範化:將屬性數據按比例縮放,使之落入一個小的特定區間
  5. 離散化:數值屬性用區間標簽或概念標簽替換。
  6. 由標稱數據產生概念分層:屬性,如street,可以泛化到較高的概念層,如city或country

4 數據歸約

由於在現實場景中,數據集是很龐大的,數據是海量的,在整個數據集上進行複雜的數據分析和挖掘需要花費很長的時間。

為了幫助從原有龐大數據集中獲得一個精簡的數據集合,並使這一精簡數據集保持原有數據集的完整性,這樣在精簡數據集上進行數據挖掘顯然效率更高,並且挖掘出來的結果與使用原有數據集所獲得結果是基本相同。

4.1 數據歸約分類

  1. 維歸約:用於檢測並刪除不相關、弱相關或冗餘的屬性。
  2. 數量歸約:用替代的、較小的數據表示形式替換原數據,來減少數據量。
  3. 數據壓縮:用數據編碼或數據轉換將原來的數據集合壓縮為一個較小規模的數據集合。

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄和文件都能操作的命令 rm cp mv rm 英文原意:remove files or directories 功能:刪除文件或目錄 語法:rm 選項[ fir] 文件或目錄 cp 英文原意:copy files and directories 功能:複製文件和目錄 語法:cp 選項[ adil ...
  • 本文主要給大家羅列了HBase協處理器載入的三種方式:Shell載入(動態)、Api載入(動態)、配置文件載入(靜態)。其中靜態載入方式需要重啟HBase。 我們假設我們已經有一個現成的需要載入的協處理器Jar包: HelloCoprocessor 0.0.1.jar 。 協處理器載入的三種方式 S ...
  • 一個問題 有一張表test,這張表除了主鍵id外,還有a,b, c 三列 假設給這三個欄位建一個複合索引 index_abc (a, b, c),問,下麵幾種查詢中,哪種查詢會用到索引 index_abc ? 1. 查詢一 select * from test where a > 1000 and ...
  • 前言:當項目上線並穩定運行後,我們就需要考慮自動備份功能了,自動備份固然簡單,但是需要相應的自動刪除來配合使用。 首先我們打開SqlServer管理工具(SSMS),在左側目錄中找到 管理-->右鍵維護計劃-->新建維護計劃 雙擊左側下方目錄:創建 ”清除維護“ 任務 雙擊後打開提示視窗,我們設置 ...
  • 文章目錄 前言 Druid介紹 主要特性 基礎概念 數據格式 數據攝入 數據存儲 數據查詢 查詢類型 架構 運維 OLAP方案對比 使用場景 使用建議 參考 近期主題 前言 項目早期、數據(報表分析)的生產、存儲和獲取業務,MySQL基本上可以滿足需要,但是隨著業務的快速增長,數據量翻至億為單位時, ...
  • 前言: 工欲善其事必先利其器,今天給大家介紹一下HBase Shell十大花式利器,在日常運維工作中,可以試著用起來。 1. 交互模式 也就是我們最常用到的Shell命令行的方式。 2. 非交互模式 與交互模式比較 如果我們想要知道HBase Shell命令執行之後是否成功,那一定要使用非交互模式。 ...
  • 一、Redis 1、簡介 【官方簡介地址:】 https://redis.io/topics/introduction 看不懂不要緊,先混個眼熟,慢慢來...。 【初步認識 Redis:】 Redis is an open source (BSD licensed), in-memory data ...
  • 一、集群伺服器配置說明(整個過程中我會提前把一些小坑填上,有的坑後面沒有提到) IP 節點名 OS Cores Memory Disk Remark 172.25.16.1 cdh1 CentOS7.5 40 128 4T cloudera Server、cloudera agent 172.25. ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...