大數據預處理綜述

来源:https://www.cnblogs.com/easy1996/archive/2020/04/16/12714312.html
-Advertisement-
Play Games

數據預處理背景 大數據項目開發流程 數據質量 準確性:數據是正確的,數據存儲在資料庫中的值對應於真實世界的值。 數據不准確的原因 1. 數據收集設備故障。 2. 數據輸入錯誤。 3. 數據傳輸過程出錯。 4. 命名約定、數據輸入、輸入欄位格式不一致。 相關性:指數據與特定的應用和領域有關。 相關性應 ...


數據預處理背景

大數據項目開發流程

數據質量

  • 準確性:數據是正確的,數據存儲在資料庫中的值對應於真實世界的值。

    數據不准確的原因

    1. 數據收集設備故障。
    2. 數據輸入錯誤。
    3. 數據傳輸過程出錯。
    4. 命名約定、數據輸入、輸入欄位格式不一致。
  • 相關性:指數據與特定的應用和領域有關。

    相關性應用場景

    1. 構造預測模型時,需要採集與模型相關的數據。
    2. 相同的數據再不同的應用場景,相關性也是不一樣的。
  • 完整性:指信息具有一個實體描述的所有必需的部分,在傳統關係型資料庫中,完整性通常與空值(NULL)有關。一般包括記錄的缺失和記錄屬性的缺失。

    數據不完整原因

    1. 涉及隱私,無法獲取相關屬性。
    2. 數據輸入時由於人為疏忽。
    3. 數據輸入時由於機器故障。
  • 時效性:指數據僅在一定時間段內對決策具有價值的屬性。數據的時效性很大程度上制約了決策的客觀效果。

    相關場景:

    1. 城市交通。
    2. 商品推薦。
  • 一致性:在資料庫中,不同地方存儲和使用的同一數據應當是等價的,表示數據有相等的值和相同的含義。

    常見不一致情況

    1. 邏輯不一致。
    2. 記錄規範不一致:同一個數據,在不同的地方顯示存儲不一致,比如男女存儲。
  • 可信性可解釋性

    可行性

    1. 數據來源的權威性。
    2. 數據的規範性。
    3. 數據產生的時間。

    可解釋性

    1. 反應數據是否容易理解。

數據預處理目的

數據預處理的目的就是提升數據質量。

重要性:數據預處理是數據挖掘中必不可少的關鍵一步,更是進行數據挖掘前的準備工作。

目的

  • 達到改進數據的質量,提高數據挖掘過程的準確率和效率。
  • 保證數據挖掘的正確性和有效性。
  • 通過對數據格式和內容的調整,使得數據更符合挖掘的需要。

數據預處理的流程

1. 數據清理

清理臟數據:由於重覆錄入,併發處理等不規範的操作,導致產生不完整,不准確的,無效的數據。

1.1 缺失值處理

現有數據集中某個或某些屬性的值是不完整的。

缺失值處理方法
  1. 忽略元組
  2. 人工填寫
  3. 使用全局常量替換空缺值
  4. 屬性的中心度量來填充
  5. 使用於給定元組同一類的所有樣本中心度量值
  6. 使用最可能的值

1.2 雜訊處理

不准確的值或明顯錯誤的值。通過雜訊處理降低對數據分析和結果的分析。

雜訊數據產生
  1. 數據收集工具的問題。
  2. 數據輸入錯誤。
  3. 數據傳輸錯誤。
  4. 技術的限制。
  5. 命名規則不一致。
雜訊處理的方法:
  1. 分箱法:通過考察數據的近鄰值來光滑有序數據值。

    舉例:8、24、15、41、6、10、18、67、25等9個數。
    排序:6、8、10、15、18、24、25、41、67。
    分箱:

    ​ 箱1: 6、8、10
    ​ 箱2: 15、18、24
    ​ 箱3: 25、41、67
    分別用三種不同的分箱法求出平滑存儲數據的值:
    平均值:8 箱1: 8,8,8。
    中值: 18 箱2: 18,18,18 。
    邊界值:6、67 箱3:25,25,67,箱中的最大和最小值被視為箱邊界。

  2. 回歸

  3. 聚類

2. 數據集成

將互相關聯的分散式異構數據源集成到一起,使用戶能夠以透明的方式訪問這些數據源。

2.1 數據集成方法

  1. 聯邦資料庫:各數據源的數據視圖,集成為全局模式。
  2. 中間件集成:通過統一的全局數據模型,來訪問異構的數據源。
  3. 數據複製:將各個數據源的數據複製,到同一處,即數據倉庫。

2.2 集成過程要處理的問題

  1. 實體識別:匹配多個信息源在現實世界中的等價實體。
  2. 冗餘與相關分析:屬性重覆,屬性相關冗餘,元組重覆。
  3. 數據衝突和檢測: 對現實世界的同一實體,來自不同數據源的屬性定義不同。原因:表示方法,度量單位、編碼或比例的差異

3. 數據變換

3.1 轉換目的

將數據轉換或統一成易於進行數據挖掘的數據存儲形式,使得挖掘過程可能更有效。

3.2 方法策略

  1. 光滑:去掉數據中的噪音。
  2. 屬性構造:由給定的屬性構造新的屬性並添加到屬性集中,幫助數據分析和挖掘。
  3. 聚集:對數據進行彙總或聚集
  4. 規範化:將屬性數據按比例縮放,使之落入一個小的特定區間
  5. 離散化:數值屬性用區間標簽或概念標簽替換。
  6. 由標稱數據產生概念分層:屬性,如street,可以泛化到較高的概念層,如city或country

4 數據歸約

由於在現實場景中,數據集是很龐大的,數據是海量的,在整個數據集上進行複雜的數據分析和挖掘需要花費很長的時間。

為了幫助從原有龐大數據集中獲得一個精簡的數據集合,並使這一精簡數據集保持原有數據集的完整性,這樣在精簡數據集上進行數據挖掘顯然效率更高,並且挖掘出來的結果與使用原有數據集所獲得結果是基本相同。

4.1 數據歸約分類

  1. 維歸約:用於檢測並刪除不相關、弱相關或冗餘的屬性。
  2. 數量歸約:用替代的、較小的數據表示形式替換原數據,來減少數據量。
  3. 數據壓縮:用數據編碼或數據轉換將原來的數據集合壓縮為一個較小規模的數據集合。

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄和文件都能操作的命令 rm cp mv rm 英文原意:remove files or directories 功能:刪除文件或目錄 語法:rm 選項[ fir] 文件或目錄 cp 英文原意:copy files and directories 功能:複製文件和目錄 語法:cp 選項[ adil ...
  • 本文主要給大家羅列了HBase協處理器載入的三種方式:Shell載入(動態)、Api載入(動態)、配置文件載入(靜態)。其中靜態載入方式需要重啟HBase。 我們假設我們已經有一個現成的需要載入的協處理器Jar包: HelloCoprocessor 0.0.1.jar 。 協處理器載入的三種方式 S ...
  • 一個問題 有一張表test,這張表除了主鍵id外,還有a,b, c 三列 假設給這三個欄位建一個複合索引 index_abc (a, b, c),問,下麵幾種查詢中,哪種查詢會用到索引 index_abc ? 1. 查詢一 select * from test where a > 1000 and ...
  • 前言:當項目上線並穩定運行後,我們就需要考慮自動備份功能了,自動備份固然簡單,但是需要相應的自動刪除來配合使用。 首先我們打開SqlServer管理工具(SSMS),在左側目錄中找到 管理-->右鍵維護計劃-->新建維護計劃 雙擊左側下方目錄:創建 ”清除維護“ 任務 雙擊後打開提示視窗,我們設置 ...
  • 文章目錄 前言 Druid介紹 主要特性 基礎概念 數據格式 數據攝入 數據存儲 數據查詢 查詢類型 架構 運維 OLAP方案對比 使用場景 使用建議 參考 近期主題 前言 項目早期、數據(報表分析)的生產、存儲和獲取業務,MySQL基本上可以滿足需要,但是隨著業務的快速增長,數據量翻至億為單位時, ...
  • 前言: 工欲善其事必先利其器,今天給大家介紹一下HBase Shell十大花式利器,在日常運維工作中,可以試著用起來。 1. 交互模式 也就是我們最常用到的Shell命令行的方式。 2. 非交互模式 與交互模式比較 如果我們想要知道HBase Shell命令執行之後是否成功,那一定要使用非交互模式。 ...
  • 一、Redis 1、簡介 【官方簡介地址:】 https://redis.io/topics/introduction 看不懂不要緊,先混個眼熟,慢慢來...。 【初步認識 Redis:】 Redis is an open source (BSD licensed), in-memory data ...
  • 一、集群伺服器配置說明(整個過程中我會提前把一些小坑填上,有的坑後面沒有提到) IP 節點名 OS Cores Memory Disk Remark 172.25.16.1 cdh1 CentOS7.5 40 128 4T cloudera Server、cloudera agent 172.25. ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...