Python 機器學習入門:數據集、數據類型和統計學

来源:https://www.cnblogs.com/xiaowange/archive/2023/11/07/17816132.html
-Advertisement-
Play Games

機器學習是通過研究數據和統計信息使電腦學習的過程。機器學習是邁向人工智慧(AI)的一步。機器學習是一個分析數據並學會預測結果的程式。 數據集 在電腦的思維中,數據集是任何數據的集合。它可以是從數組到完整資料庫的任何東西。 數組的示例: [99,86,87,88,111,86,103,87,94, ...


機器學習是通過研究數據和統計信息使電腦學習的過程。機器學習是邁向人工智慧(AI)的一步。機器學習是一個分析數據並學會預測結果的程式。

數據集

在電腦的思維中,數據集是任何數據的集合。它可以是從數組到完整資料庫的任何東西。

數組的示例:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

資料庫的示例:

Carname  Color  Age  Speed  AutoPass
BMW  red  5  99  Y
Volvo  black  7  86  Y
VW  gray  8  87  N
VW  white  7  88  Y
Ford  white  2  111  Y
VW  white  17  86  Y
Tesla  red  2  103  Y
BMW  black  9  87  Y
Volvo  gray  4  94  N
Ford  white  11  78  N
Toyota  gray  12  77  N
VW  white  9  85  N
Toyota  blue  6  86  Y

通過查看數組,我們可以猜測平均值可能在80到90之間,我們還能夠確定最高值和最低值,但我們還能做什麼?

通過查看資料庫,我們可以看到最受歡迎的顏色是白色,而最老的車輛為17歲,但如果我們能夠通過查看其他值來預測車輛是否具有AutoPass呢?

這就是機器學習的用途!分析數據並預測結果!

在機器學習中,通常需要處理非常大的數據集。在本教程中,我們將儘量讓您儘可能容易地理解機器學習的不同概念,並使用易於理解的小型數據集。

數據類型

要分析數據,重要的是要知道我們正在處理的數據類型。

我們可以將數據類型分為三個主要類別:

  • 數值
  • 分類
  • 順序

數值數據是數字,並且可以分為兩個數值類別:

  1. 離散數據 - 限製為整數的數字。示例:汽車經過的數量。
  2. 連續數據 - 有無限值的數字。示例:物品的價格或大小。

分類數據是不能相互比較的值。示例:顏色值或任何是/否值。

順序數據類似於分類數據,但可以相互比較。示例:學校成績,其中A好於B等等。

通過瞭解數據源的數據類型,您將能夠知道在分析數據時使用哪種技術。

您將在接下來的章節中瞭解更多有關統計學和數據分析的內容。

機器學習 - 均值、中位數、眾數

在觀察一組數字時,我們可以學到什麼?

在機器學習(以及數學)中,通常有三個值引起我們的興趣:

  • 均值 - 平均值
  • 中位數 - 中間值
  • 眾數 - 出現最頻繁的值

示例:我們已經記錄了13輛車的速度:

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

這些速度的平均值、中間值和最常見的速度值是多少呢?

均值

均值是平均值。

要計算均值,找到所有值的總和,並將總和除以值的數量:

(99+86+87+88+111+86+103+87+94+78+77+85+86) / 13 = 89.77

NumPy模塊有一個用於此目的的方法。瞭解有關NumPy模塊的信息,請查看我們的NumPy教程。

示例:使用NumPy的mean()方法找到平均速度:

import numpy

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = numpy.mean(speed)

print(x)

中位數

中位數是排列所有值後位於中間的值:

77, 78, 85, 86, 86, 86, 87, 87, 88, 94, 99, 103, 111

在找到中位數之前,需要確保對數字進行排序。

NumPy模塊有一個用於此目的的方法:

示例:使用NumPy的median()方法找到中間值:

import numpy

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = numpy.median(speed)

print(x)

如果中間有兩個數字,將這些數字的總和除以2。

77, 78, 85, 86, 86, 86, 87, 87, 94, 98, 99, 103

(86 + 87) / 2 = 86.5

示例:使用NumPy模塊:

import numpy

speed = [99,86,87,88,86,103,87,94,78,77,85,86]

x = numpy.median(speed)

print(x)

眾數

眾數是出現最頻繁的值:

99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86 = 86

SciPy模塊有一個用於此目的的方法。瞭解有關SciPy模塊的信息,請查看我們的SciPy教程。

示例:使用SciPy的mode()方法找到出現最頻繁的數字:

from scipy import stats

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = stats.mode(speed)

print(x)

最後

為了方便其他設備和平臺的小伙伴觀看往期文章:公眾號搜索Let us Coding,或者掃描下方二維碼,關註公眾號,即可獲取最新文章。

看完如果覺得有幫助,歡迎點贊、收藏關註

image


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 從接觸領域驅動設計的初學階段,到實現一個舊系統改造到DDD模型,再到按DDD規範落地的3個的項目。對於領域驅動模型設計研發,從開始的各種疑惑到吸收各種先進的理念,目前在技術實施這一塊已經基本比較成熟。在既往經驗中總結了一些在開發中遇到的技術問題和解決方案進行分享。 ...
  • 一、定義 運用共用技術有效地支持大量細粒度對象的復用,享元模式是一種結構型模式。 二、描述 享元模式要求能夠共用的對象必須是細粒度對象,因此它又稱為輕量級模式。享元模式的結構較為複雜,一般結合工廠模式一起使用,在其結構圖中包含了一個享元工廠類,包含以下四個角色: 1、Flyweight(抽象享元類) ...
  • 哈嘍大家好,我是鹹魚 想必大家都聽說過 Instagram ,它是全球最受歡迎的社交媒體平臺之一,擁有數十億的活躍用戶 Instagram 誕生於 2010 年,上線一周就坐擁 10 萬註冊用戶,一年之內就擁有了 1400 萬用戶,可見擴張趨勢突飛猛進。 Instagram 誕生的時候只有 3 個工 ...
  • 本節介紹Util應用框架如何進行驗證. 概述 驗證是業務健壯性的基礎. .Net 提供了一套稱為 DataAnnotations 數據註解的方法,可以對屬性進行一些基本驗證,比如必填項驗證,長度驗證等. Util應用框架使用標準的數據註解作為基礎驗證,並對自定義驗證進行擴展. 基礎用法 引用Nuge ...
  • 本文介紹了結構型設計模式中的橋接模式,講解了它的特點和相關構成,並通過相應的案例,使用Java代碼進行演示。 ...
  • 本節介紹Util應用框架對AspectCore AOP的使用. 概述 有些問題需要在系統中全局處理,比如記錄異常錯誤日誌. 如果在每個出現問題的地方進行處理,不僅費力,還可能產生大量冗餘代碼,並打斷業務邏輯的編寫. 這類跨多個業務模塊的非功能需求,被稱為橫切關註點. 我們需要把橫切關註點集中管理起來 ...
  • 1. HashMap和HashT able的區別 HashMap和Hashtable是兩種常見的哈希表數據結構,它們在實現上有一些區別。 線程安全性:Hashtable是線程安全的,而HashMap不是。Hashtable的方法都是同步的,可以在多線程環境中使用,但這樣會造成一定的性能開銷。Hash ...
  • kubelet 簡介 kubernetes 分為控制面和數據面,kubelet 就是數據面最主要的組件,在每個節點上啟動,主要負責容器的創建、啟停、監控、日誌收集等工作。它是一個在每個集群節點上運行的代理,負責確保節點上的容器根據PodSpec(Pod定義文件)正確運行。 Kubelet執行以下幾項 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...