機器學習實戰-朴素貝葉斯

来源:https://www.cnblogs.com/twq46/archive/2022/10/05/16751376.html
-Advertisement-
Play Games

本文講述了朴素貝葉斯的原理,概率的計算方式,給出代碼的詳細解釋,並最後給出代碼的運行過程的總結,然後又用了兩個實例來講述朴素貝葉斯代碼的計算過程 ...


1.優缺點

優點:
  • 在數據較少的情況下仍然有效,

  • 可以處理多類別問題。

缺點:

  • 對於輸入數據的準備方式較為敏感。

  • 適用數據類型:標稱型數據

2.朴素貝葉斯的一般過程

(1) 收集數據:可以使用任何方法。本章使用RSS源。
(2) 準備數據:需要數值型或者布爾型數據。
(3) 分析數據:有大量特征時,繪製特征作用不大,此時使用直方圖效果更好。
(4) 訓練演算法:計算不同的獨立特征的條件概率。
(5) 測試演算法:計算錯誤率。
(6) 使用演算法:一個常見的朴素貝葉斯應用是文檔分類。可以在任意的分類場景中使用樸
素貝葉斯分類器,不一定非要是文本。

3.概率論知識補充

3.1條件概率

下圖公式表示在事件A發生的條件下,B發生的概率

3.2全概率公式

3.3貝葉斯公式

4.使用 Python 進行文本分類

4.1準備數據:從文本中構建詞向量

我們將把文本看成單詞向量或者詞條向量,也就是說將句子轉換為向量

def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],  #切分的詞條
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]  #類別標簽向量,1代表侮辱性辭彙,0代表不是
    return postingList,classVec

#創建辭彙表-文檔向量化的第一步,將所有單詞放入set集合中(去除重覆的單詞)
#原數據集中去掉重覆的單詞之後,一共有32個單詞
def createVocabList(dataSet):
    vocabSet = set([]) #創建一個空的不重覆列表
    for document in dataSet:
        vocabSet = vocabSet | set(document) #取並集
    return list(vocabSet)

#詞集法-文檔向量化的第二步
#inputSet - 切分的詞條列表(最初的postingList的每一行)
# vocabList - createVocabList返回的列表
#思想,遍歷inputSet中的每一個單詞,若在vocabList中存在,則將出現的位置的值設置為1即可
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  #創建一個其中所含元素都為0的向量
    for word in inputSet:   #遍歷每個詞條
        if word in vocabList:  #如果詞條存在於辭彙表中,則置1
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec     #返迴文檔向量

得到的向量集為:

4.2從詞向量計算概率

#朴素貝葉斯分類器訓練函數
# trainMatrix - 訓練文檔矩陣,即setOfWords2Vec返回的returnVec構成的矩陣
# trainCategory - 訓練類別標簽向量,即loadDataSet返回的classVec
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)#計算訓練的文檔數目 6
    numWords = len(trainMatrix[0]) #計算每篇文檔的詞條數 32
    pAbusive = sum(trainCategory)/float(numTrainDocs)#文檔屬於侮辱類的概率
    p0Num = np.ones(numWords); p1Num = np.ones(numWords)#創建numpy.zeros數組,詞條出現數初始化為0
    p0Denom = 2.0; p1Denom = 2.0 #分母初始化為0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:  #統計屬於侮辱類的條件概率所需的數據,即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMatrix[i]#計算侮辱性單詞所在行每個單詞出現的頻數
            p1Denom += sum(trainMatrix[i])#侮辱性單詞所在行的總共單詞的個數
        else: #統計屬於非侮辱類的條件概率所需的數據,即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]#計算非侮辱性單詞所在行每個單詞出現的頻數
            p0Denom += sum(trainMatrix[i])#非侮辱性單詞所在行單詞的總個數
    p1Vect = np.log(p1Num/p1Denom)#計算侮辱性單詞所在行的每個單詞是侮辱性單詞的概率
    p0Vect = np.log(p0Num/p0Denom)#計算非侮辱性單詞所在行的每個單詞是非侮辱性單詞的概率
    return p0Vect,p1Vect,pAbusive

4.3根據現實情況修改分類器

利用貝葉斯分類器對文檔進行分類時,要計算多個概率的乘積以獲得文檔屬於某個類別的概 率,即計算p(w0|1)p(w1|1)p(w2|1)。如果其中一個概率值為0,那麼最後的乘積也為0。為降低 這種影響,可以將所有詞的出現數初始化為1,並將分母初始化為2。
p0Num = np.ones(numWords); p1Num = np.ones(numWords)#創建numpy.zeros數組,詞條出現數初始化為0
    p0Denom = 2.0; p1Denom = 2.0 #分母初始化為0

另一個遇到的問題是下溢出,這是由於太多很小的數相乘造成的。當計算乘積 p(w0|ci)p(w1|ci)p(w2|ci)...p(wN|ci)時,由於大部分因數都非常小,所以程式會下溢出或者 得到不正確的答案。(讀者可以用Python嘗試相乘許多很小的數,最後四捨五入後會得到0。)一 種解決辦法是對乘積取自然對數。在代數中有ln(a*b) = ln(a)+ln(b),於是通過求對數可以 避免下溢出或者浮點數舍入導致的錯誤。同時,採用自然對數進行處理不會有任何損失。

p1Vect = np.log(p1Num/p1Denom)#計算侮辱性單詞所在行的每個單詞是侮辱性單詞的概率
    p0Vect = np.log(p0Num/p0Denom)#計算非侮辱性單詞所在行的每個單詞是非侮辱性單詞的概率

朴素貝葉斯分類函數

#朴素貝葉斯分類器分類函數
# vec2Classify - 待分類的詞條數組
# p0Vec - 侮辱類的條件概率數組
# p1Vec -非侮辱類的條件概率數組
# pClass1 - 文檔屬於侮辱類的概率
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):

    p1 = sum(vec2Classify*p1Vec)+np.log(pClass1) #計算測試集對應每個單詞是侮辱性的概率
    p0 = sum(vec2Classify*p0Vec)+np.log(1.0-pClass1)#計算測試集中對應每個單詞是非侮辱性單詞的概率
    print('p0:',p0)
    print('p1:',p1)
    if p1 > p0:
        return 1
    else:
        return 0

#測試朴素貝葉斯分類器
def testingNB():
	listOPosts,listClasses = loadDataSet()									#創建實驗樣本
	myVocabList = createVocabList(listOPosts)								#創建辭彙表
	trainMat=[]
	for postinDoc in listOPosts:
		trainMat.append(setOfWords2Vec(myVocabList, postinDoc))	#將實驗樣本向量化
	p0V,p1V,pAb = trainNB0(trainMat,listClasses)#訓練朴素貝葉斯分類器
	testEntry = ['love', 'my', 'dalmation']	#測試樣本1
	thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))#測試樣本向量化
	if classifyNB(thisDoc,p0V,p1V,pAb):
		print(testEntry,'屬於侮辱類')	#執行分類並列印分類結果
	else:
		print(testEntry,'屬於非侮辱類')#執行分類並列印分類結果
	testEntry = ['stupid', 'garbage']#測試樣本2

	thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))	#測試樣本向量化
	if classifyNB(thisDoc,p0V,p1V,pAb):
		print(testEntry,'屬於侮辱類')	#執行分類並列印分類結果
	else:
		print(testEntry,'屬於非侮辱類')

測試結果:

總結:整個代碼完成的步驟如下:

  • 由原始數據得到分類列表,將原始數據存入set集合中去除重覆數據

  • 由set集合和原始數據得到向量集

    • 迴圈遍歷原始數據的每一行,並判斷該行中每個元素在set集合中是否存在,若存在,則將set集合中對應位置設為1,最後得到一個一行set集合中元素個數這麼多列的一個向量組,依次類推,原始數據每一行都得到一個向量組,最終組成原始數據的向量集
  • 計算概率

    • 迴圈遍歷分類數據集中每一個元素,根據該元素找到其在向量集中所在的行,然後統計該行每個元素出現的頻次和改行總元素的個數,依次類推,找到每個類別所在行元素出現的頻次,以及該類別對應元素的總個數

    • 最後根據每個類別的元素出現的頻次除以該類別下元素的總數,得到每個元素是該類別的概率

  • 測試數據集

    • 首先計算出測試數據集對應的向量集(也就是測試集中的元素出現在set集合中的位置設為1)

    • 然後根據該向量集和之前得到的每個元素是每一類別的概率的數據集相乘,就可以得到測試集中每個元素是某一類別的概率

    • 然後取算出來的是每個類別的概率的最大值,即測試集就是該類別

5.過濾垃圾郵件

Mac電腦的朋友在導入郵件數據的時候如果出現編碼錯誤,可以使用如下命令修改文件的編碼格式

enconv -L zh_CN -x UTF-8 filename
#2.垃圾郵件分類
def textParse(bigString):#將字元串轉換為字元列表
    import re
    #機器學習與實戰課本上的這種正則表達式的寫法切分會將每一個單詞的每一個字母都單獨切分開,可以自己調試看看
    #listOfTokens = re.split(r'\W*', bigString)
    listOfTokens =re.split(r'\W+', bigString)#將特殊符號作為切分標誌進行字元串切分,即非字母、非數字
    return [tok.lower() for tok in listOfTokens if len(tok) > 2] #除了單個字母(因為在判斷一個郵件是否是垃圾郵件的時候,僅憑一個字母還不能判斷出來)例如大寫的I,其它單詞變成小寫


def spamTest():
    docList = []; classList = []; fullText = []
    for i in range(1, 26):  #遍歷25個txt文件
        wordList = textParse(open('email/spam/%d.txt' % i, 'r').read()) #讀取每個垃圾郵件,並字元串轉換成字元串列表
        docList.append(wordList)
        fullText.append(wordList)
        classList.append(1)#標記垃圾郵件,1表示垃圾文件
        wordList = textParse(open('email/ham/%d.txt' % i, 'r').read())#讀取每個非垃圾郵件,並字元串轉換成字元串列表
        docList.append(wordList)
        fullText.append(wordList)
        classList.append(0)#標記非垃圾郵件,1表示垃圾文件
    vocabList = createVocabList(docList)  #創建辭彙表,不重覆
    trainingSet = list(range(50)); testSet = []#創建存儲訓練集的索引值的列表和測試集的索引值的列表
    for i in range(10):   #從50個郵件中,隨機挑選出40個作為訓練集,10個做測試集
        randIndex = int(random.uniform(0, len(trainingSet)))  #隨機選取索索引值
        testSet.append(trainingSet[randIndex])#添加測試集的索引值
        del(trainingSet[randIndex])  #在訓練集列表中刪除添加到測試集的索引值
    trainMat = []; trainClasses = [] #創建訓練集矩陣和訓練集類別標簽系向量
    for docIndex in trainingSet: #遍歷訓練集
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex])) #將生成的詞集模型添加到訓練矩陣中
        trainClasses.append(classList[docIndex]) #將類別添加到訓練集類別標簽系向量中
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))  #訓練朴素貝葉斯模型
    errorCount = 0   #錯誤分類計數
    for docIndex in testSet:  #遍歷測試集
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])  #測試集的詞集模型
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:    #如果分類錯誤
            errorCount += 1                                                 #錯誤計數加1
            print("分類錯誤的測試集:",docList[docIndex])
    print('錯誤率:%.2f%%' % (float(errorCount) / len(testSet) * 100))

測試結果


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • echarts是百度推出的一款開源的基於`JavaScript`的可視化圖表庫,該開發庫目前發展非常不錯,且支持各類圖形的繪製可定製程度高,Echarts繪圖庫同樣可以與`Flask`結合,前臺使用`echart`繪圖庫進行圖形的生成與展示,後臺則是Flask通過`render_template`方... ...
  • 類變數: 什麼是類變數? 一個可以被一個類所有對象共用的變數 類變數關鍵字? static 類變數語法? 訪問修飾符 static 數據類型 變數名; [推薦使用] static 訪問修飾符 數據類型 變數名; 入門案例: count被child1和child2共用,只要是Child類的對象都可以共 ...
  • 上一章講到如何將程式寫入到ESP8266 WiFi模塊中,實現物聯網終端對硬體的控制。本章將通過fubuki-iot實現自定義硬體控制。同時給出一個替代百度API的方案。 硬體準備 (無) 自定義語義模型 在第一章的“提醒事項”的例子中,fubuki-iot就展現了語義模型的功能。它將命中語義模型的 ...
  • 原文:Libgdx游戲開發(2)——接水滴游戲實現 - Stars-One的雜貨小窩 本文使用Kotlin語言開發 通過本文的學習可以初步瞭解以下基礎知識的使用: Basic file access Clearing the screen Drawing images Using a camera ...
  • 一、後臺管理系統配置 1 在該表對應的models類裡面添加一個Meta類 class Meta: verbose_name_plural = '用戶表' # 指定該表在admin後臺的名字為: 用戶表 # verbose_name = '用戶表' # 末尾還是會自動加s 2 null=True,b ...
  • 我們看到下麵的示例圖是 在右鍵文件夾上查看菜單,帶有兩級的菜單選項。 文件夾 空白處 需要使用管理員許可權運行 因為右鍵菜單需要註冊表信息,打開註冊表需要管理員許可權UAC,所以在執行命令過程中需要使用管理員許可權來執行命令 import sys import winreg as reg import o ...
  • 我的博客 這個教程只適合windows,linux不適用,不過話說回來了,linux都是自帶python的,所以已經預置好了,只要打python就行了,根本不用加環境變數 言歸正傳 寫了好長時間的python,最近發現個很基礎的問題,就是很多同學已經安裝python了,但是不知道怎麼運行,找了教程, ...
  • 一、SpringMVC簡介 1、什麼是MVC MVC是一種軟體架構的思想,將軟體按照模型、視圖、控制器來劃分 **M:**Model,模型層,指工程中的JavaBean,作用是處理數據 JavaBean分為兩類: 一類稱為實體類Bean:專門存儲業務數據的,如Student、User等 一類稱為業務 ...
一周排行
    -Advertisement-
    Play Games
  • Timer是什麼 Timer 是一種用於創建定期粒度行為的機制。 與標準的 .NET System.Threading.Timer 類相似,Orleans 的 Timer 允許在一段時間後執行特定的操作,或者在特定的時間間隔內重覆執行操作。 它在分散式系統中具有重要作用,特別是在處理需要周期性執行的 ...
  • 前言 相信很多做WPF開發的小伙伴都遇到過表格類的需求,雖然現有的Grid控制項也能實現,但是使用起來的體驗感並不好,比如要實現一個Excel中的表格效果,估計你能想到的第一個方法就是套Border控制項,用這種方法你需要控制每個Border的邊框,並且在一堆Bordr中找到Grid.Row,Grid. ...
  • .NET C#程式啟動閃退,目錄導致的問題 這是第2次踩這個坑了,很小的編程細節,容易忽略,所以寫個博客,分享給大家。 1.第一次坑:是windows 系統把程式運行成服務,找不到配置文件,原因是以服務運行它的工作目錄是在C:\Windows\System32 2.本次坑:WPF桌面程式通過註冊表設 ...
  • 在分散式系統中,數據的持久化是至關重要的一環。 Orleans 7 引入了強大的持久化功能,使得在分散式環境下管理數據變得更加輕鬆和可靠。 本文將介紹什麼是 Orleans 7 的持久化,如何設置它以及相應的代碼示例。 什麼是 Orleans 7 的持久化? Orleans 7 的持久化是指將 Or ...
  • 前言 .NET Feature Management 是一個用於管理應用程式功能的庫,它可以幫助開發人員在應用程式中輕鬆地添加、移除和管理功能。使用 Feature Management,開發人員可以根據不同用戶、環境或其他條件來動態地控制應用程式中的功能。這使得開發人員可以更靈活地管理應用程式的功 ...
  • 在 WPF 應用程式中,拖放操作是實現用戶交互的重要組成部分。通過拖放操作,用戶可以輕鬆地將數據從一個位置移動到另一個位置,或者將控制項從一個容器移動到另一個容器。然而,WPF 中預設的拖放操作可能並不是那麼好用。為瞭解決這個問題,我們可以自定義一個 Panel 來實現更簡單的拖拽操作。 自定義 Pa ...
  • 在實際使用中,由於涉及到不同編程語言之間互相調用,導致C++ 中的OpenCV與C#中的OpenCvSharp 圖像數據在不同編程語言之間難以有效傳遞。在本文中我們將結合OpenCvSharp源碼實現原理,探究兩種數據之間的通信方式。 ...
  • 一、前言 這是一篇搭建許可權管理系統的系列文章。 隨著網路的發展,信息安全對應任何企業來說都越發的重要,而本系列文章將和大家一起一步一步搭建一個全新的許可權管理系統。 說明:由於搭建一個全新的項目過於繁瑣,所有作者將挑選核心代碼和核心思路進行分享。 二、技術選擇 三、開始設計 1、自主搭建vue前端和. ...
  • Csharper中的表達式樹 這節課來瞭解一下表示式樹是什麼? 在C#中,表達式樹是一種數據結構,它可以表示一些代碼塊,如Lambda表達式或查詢表達式。表達式樹使你能夠查看和操作數據,就像你可以查看和操作代碼一樣。它們通常用於創建動態查詢和解析表達式。 一、認識表達式樹 為什麼要這樣說?它和委托有 ...
  • 在使用Django等框架來操作MySQL時,實際上底層還是通過Python來操作的,首先需要安裝一個驅動程式,在Python3中,驅動程式有多種選擇,比如有pymysql以及mysqlclient等。使用pip命令安裝mysqlclient失敗應如何解決? 安裝的python版本說明 機器同時安裝了 ...