機器學習是通過研究數據和統計信息使電腦學習的過程。機器學習是邁向人工智慧(AI)的一步。機器學習是一個分析數據並學會預測結果的程式。 數據集 在電腦的思維中,數據集是任何數據的集合。它可以是從數組到完整資料庫的任何東西。 數組的示例: [99,86,87,88,111,86,103,87,94, ...
機器學習是通過研究數據和統計信息使電腦學習的過程。機器學習是邁向人工智慧(AI)的一步。機器學習是一個分析數據並學會預測結果的程式。
數據集
在電腦的思維中,數據集是任何數據的集合。它可以是從數組到完整資料庫的任何東西。
數組的示例:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
資料庫的示例:
Carname Color Age Speed AutoPass
BMW red 5 99 Y
Volvo black 7 86 Y
VW gray 8 87 N
VW white 7 88 Y
Ford white 2 111 Y
VW white 17 86 Y
Tesla red 2 103 Y
BMW black 9 87 Y
Volvo gray 4 94 N
Ford white 11 78 N
Toyota gray 12 77 N
VW white 9 85 N
Toyota blue 6 86 Y
通過查看數組,我們可以猜測平均值可能在80到90之間,我們還能夠確定最高值和最低值,但我們還能做什麼?
通過查看資料庫,我們可以看到最受歡迎的顏色是白色,而最老的車輛為17歲,但如果我們能夠通過查看其他值來預測車輛是否具有AutoPass呢?
這就是機器學習的用途!分析數據並預測結果!
在機器學習中,通常需要處理非常大的數據集。在本教程中,我們將儘量讓您儘可能容易地理解機器學習的不同概念,並使用易於理解的小型數據集。
數據類型
要分析數據,重要的是要知道我們正在處理的數據類型。
我們可以將數據類型分為三個主要類別:
- 數值
- 分類
- 順序
數值數據是數字,並且可以分為兩個數值類別:
- 離散數據 - 限製為整數的數字。示例:汽車經過的數量。
- 連續數據 - 有無限值的數字。示例:物品的價格或大小。
分類數據是不能相互比較的值。示例:顏色值或任何是/否值。
順序數據類似於分類數據,但可以相互比較。示例:學校成績,其中A好於B等等。
通過瞭解數據源的數據類型,您將能夠知道在分析數據時使用哪種技術。
您將在接下來的章節中瞭解更多有關統計學和數據分析的內容。
機器學習 - 均值、中位數、眾數
在觀察一組數字時,我們可以學到什麼?
在機器學習(以及數學)中,通常有三個值引起我們的興趣:
- 均值 - 平均值
- 中位數 - 中間值
- 眾數 - 出現最頻繁的值
示例:我們已經記錄了13輛車的速度:
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
這些速度的平均值、中間值和最常見的速度值是多少呢?
均值
均值是平均值。
要計算均值,找到所有值的總和,並將總和除以值的數量:
(99+86+87+88+111+86+103+87+94+78+77+85+86) / 13 = 89.77
NumPy模塊有一個用於此目的的方法。瞭解有關NumPy模塊的信息,請查看我們的NumPy教程。
示例:使用NumPy的mean()方法找到平均速度:
import numpy
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
x = numpy.mean(speed)
print(x)
中位數
中位數是排列所有值後位於中間的值:
77, 78, 85, 86, 86, 86, 87, 87, 88, 94, 99, 103, 111
在找到中位數之前,需要確保對數字進行排序。
NumPy模塊有一個用於此目的的方法:
示例:使用NumPy的median()方法找到中間值:
import numpy
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
x = numpy.median(speed)
print(x)
如果中間有兩個數字,將這些數字的總和除以2。
77, 78, 85, 86, 86, 86, 87, 87, 94, 98, 99, 103
(86 + 87) / 2 = 86.5
示例:使用NumPy模塊:
import numpy
speed = [99,86,87,88,86,103,87,94,78,77,85,86]
x = numpy.median(speed)
print(x)
眾數
眾數是出現最頻繁的值:
99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86 = 86
SciPy模塊有一個用於此目的的方法。瞭解有關SciPy模塊的信息,請查看我們的SciPy教程。
示例:使用SciPy的mode()方法找到出現最頻繁的數字:
from scipy import stats
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
x = stats.mode(speed)
print(x)
最後
為了方便其他設備和平臺的小伙伴觀看往期文章:公眾號搜索Let us Coding
,或者掃描下方二維碼,關註公眾號,即可獲取最新文章。
看完如果覺得有幫助,歡迎點贊、收藏和關註