機器學習實戰-朴素貝葉斯

来源:https://www.cnblogs.com/twq46/archive/2022/10/05/16751376.html
-Advertisement-
Play Games

本文講述了朴素貝葉斯的原理,概率的計算方式,給出代碼的詳細解釋,並最後給出代碼的運行過程的總結,然後又用了兩個實例來講述朴素貝葉斯代碼的計算過程 ...


1.優缺點

優點:
  • 在數據較少的情況下仍然有效,

  • 可以處理多類別問題。

缺點:

  • 對於輸入數據的準備方式較為敏感。

  • 適用數據類型:標稱型數據

2.朴素貝葉斯的一般過程

(1) 收集數據:可以使用任何方法。本章使用RSS源。
(2) 準備數據:需要數值型或者布爾型數據。
(3) 分析數據:有大量特征時,繪製特征作用不大,此時使用直方圖效果更好。
(4) 訓練演算法:計算不同的獨立特征的條件概率。
(5) 測試演算法:計算錯誤率。
(6) 使用演算法:一個常見的朴素貝葉斯應用是文檔分類。可以在任意的分類場景中使用樸
素貝葉斯分類器,不一定非要是文本。

3.概率論知識補充

3.1條件概率

下圖公式表示在事件A發生的條件下,B發生的概率

3.2全概率公式

3.3貝葉斯公式

4.使用 Python 進行文本分類

4.1準備數據:從文本中構建詞向量

我們將把文本看成單詞向量或者詞條向量,也就是說將句子轉換為向量

def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],  #切分的詞條
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]  #類別標簽向量,1代表侮辱性辭彙,0代表不是
    return postingList,classVec

#創建辭彙表-文檔向量化的第一步,將所有單詞放入set集合中(去除重覆的單詞)
#原數據集中去掉重覆的單詞之後,一共有32個單詞
def createVocabList(dataSet):
    vocabSet = set([]) #創建一個空的不重覆列表
    for document in dataSet:
        vocabSet = vocabSet | set(document) #取並集
    return list(vocabSet)

#詞集法-文檔向量化的第二步
#inputSet - 切分的詞條列表(最初的postingList的每一行)
# vocabList - createVocabList返回的列表
#思想,遍歷inputSet中的每一個單詞,若在vocabList中存在,則將出現的位置的值設置為1即可
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  #創建一個其中所含元素都為0的向量
    for word in inputSet:   #遍歷每個詞條
        if word in vocabList:  #如果詞條存在於辭彙表中,則置1
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec     #返迴文檔向量

得到的向量集為:

4.2從詞向量計算概率

#朴素貝葉斯分類器訓練函數
# trainMatrix - 訓練文檔矩陣,即setOfWords2Vec返回的returnVec構成的矩陣
# trainCategory - 訓練類別標簽向量,即loadDataSet返回的classVec
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)#計算訓練的文檔數目 6
    numWords = len(trainMatrix[0]) #計算每篇文檔的詞條數 32
    pAbusive = sum(trainCategory)/float(numTrainDocs)#文檔屬於侮辱類的概率
    p0Num = np.ones(numWords); p1Num = np.ones(numWords)#創建numpy.zeros數組,詞條出現數初始化為0
    p0Denom = 2.0; p1Denom = 2.0 #分母初始化為0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:  #統計屬於侮辱類的條件概率所需的數據,即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMatrix[i]#計算侮辱性單詞所在行每個單詞出現的頻數
            p1Denom += sum(trainMatrix[i])#侮辱性單詞所在行的總共單詞的個數
        else: #統計屬於非侮辱類的條件概率所需的數據,即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]#計算非侮辱性單詞所在行每個單詞出現的頻數
            p0Denom += sum(trainMatrix[i])#非侮辱性單詞所在行單詞的總個數
    p1Vect = np.log(p1Num/p1Denom)#計算侮辱性單詞所在行的每個單詞是侮辱性單詞的概率
    p0Vect = np.log(p0Num/p0Denom)#計算非侮辱性單詞所在行的每個單詞是非侮辱性單詞的概率
    return p0Vect,p1Vect,pAbusive

4.3根據現實情況修改分類器

利用貝葉斯分類器對文檔進行分類時,要計算多個概率的乘積以獲得文檔屬於某個類別的概 率,即計算p(w0|1)p(w1|1)p(w2|1)。如果其中一個概率值為0,那麼最後的乘積也為0。為降低 這種影響,可以將所有詞的出現數初始化為1,並將分母初始化為2。
p0Num = np.ones(numWords); p1Num = np.ones(numWords)#創建numpy.zeros數組,詞條出現數初始化為0
    p0Denom = 2.0; p1Denom = 2.0 #分母初始化為0

另一個遇到的問題是下溢出,這是由於太多很小的數相乘造成的。當計算乘積 p(w0|ci)p(w1|ci)p(w2|ci)...p(wN|ci)時,由於大部分因數都非常小,所以程式會下溢出或者 得到不正確的答案。(讀者可以用Python嘗試相乘許多很小的數,最後四捨五入後會得到0。)一 種解決辦法是對乘積取自然對數。在代數中有ln(a*b) = ln(a)+ln(b),於是通過求對數可以 避免下溢出或者浮點數舍入導致的錯誤。同時,採用自然對數進行處理不會有任何損失。

p1Vect = np.log(p1Num/p1Denom)#計算侮辱性單詞所在行的每個單詞是侮辱性單詞的概率
    p0Vect = np.log(p0Num/p0Denom)#計算非侮辱性單詞所在行的每個單詞是非侮辱性單詞的概率

朴素貝葉斯分類函數

#朴素貝葉斯分類器分類函數
# vec2Classify - 待分類的詞條數組
# p0Vec - 侮辱類的條件概率數組
# p1Vec -非侮辱類的條件概率數組
# pClass1 - 文檔屬於侮辱類的概率
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):

    p1 = sum(vec2Classify*p1Vec)+np.log(pClass1) #計算測試集對應每個單詞是侮辱性的概率
    p0 = sum(vec2Classify*p0Vec)+np.log(1.0-pClass1)#計算測試集中對應每個單詞是非侮辱性單詞的概率
    print('p0:',p0)
    print('p1:',p1)
    if p1 > p0:
        return 1
    else:
        return 0

#測試朴素貝葉斯分類器
def testingNB():
	listOPosts,listClasses = loadDataSet()									#創建實驗樣本
	myVocabList = createVocabList(listOPosts)								#創建辭彙表
	trainMat=[]
	for postinDoc in listOPosts:
		trainMat.append(setOfWords2Vec(myVocabList, postinDoc))	#將實驗樣本向量化
	p0V,p1V,pAb = trainNB0(trainMat,listClasses)#訓練朴素貝葉斯分類器
	testEntry = ['love', 'my', 'dalmation']	#測試樣本1
	thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))#測試樣本向量化
	if classifyNB(thisDoc,p0V,p1V,pAb):
		print(testEntry,'屬於侮辱類')	#執行分類並列印分類結果
	else:
		print(testEntry,'屬於非侮辱類')#執行分類並列印分類結果
	testEntry = ['stupid', 'garbage']#測試樣本2

	thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))	#測試樣本向量化
	if classifyNB(thisDoc,p0V,p1V,pAb):
		print(testEntry,'屬於侮辱類')	#執行分類並列印分類結果
	else:
		print(testEntry,'屬於非侮辱類')

測試結果:

總結:整個代碼完成的步驟如下:

  • 由原始數據得到分類列表,將原始數據存入set集合中去除重覆數據

  • 由set集合和原始數據得到向量集

    • 迴圈遍歷原始數據的每一行,並判斷該行中每個元素在set集合中是否存在,若存在,則將set集合中對應位置設為1,最後得到一個一行set集合中元素個數這麼多列的一個向量組,依次類推,原始數據每一行都得到一個向量組,最終組成原始數據的向量集
  • 計算概率

    • 迴圈遍歷分類數據集中每一個元素,根據該元素找到其在向量集中所在的行,然後統計該行每個元素出現的頻次和改行總元素的個數,依次類推,找到每個類別所在行元素出現的頻次,以及該類別對應元素的總個數

    • 最後根據每個類別的元素出現的頻次除以該類別下元素的總數,得到每個元素是該類別的概率

  • 測試數據集

    • 首先計算出測試數據集對應的向量集(也就是測試集中的元素出現在set集合中的位置設為1)

    • 然後根據該向量集和之前得到的每個元素是每一類別的概率的數據集相乘,就可以得到測試集中每個元素是某一類別的概率

    • 然後取算出來的是每個類別的概率的最大值,即測試集就是該類別

5.過濾垃圾郵件

Mac電腦的朋友在導入郵件數據的時候如果出現編碼錯誤,可以使用如下命令修改文件的編碼格式

enconv -L zh_CN -x UTF-8 filename
#2.垃圾郵件分類
def textParse(bigString):#將字元串轉換為字元列表
    import re
    #機器學習與實戰課本上的這種正則表達式的寫法切分會將每一個單詞的每一個字母都單獨切分開,可以自己調試看看
    #listOfTokens = re.split(r'\W*', bigString)
    listOfTokens =re.split(r'\W+', bigString)#將特殊符號作為切分標誌進行字元串切分,即非字母、非數字
    return [tok.lower() for tok in listOfTokens if len(tok) > 2] #除了單個字母(因為在判斷一個郵件是否是垃圾郵件的時候,僅憑一個字母還不能判斷出來)例如大寫的I,其它單詞變成小寫


def spamTest():
    docList = []; classList = []; fullText = []
    for i in range(1, 26):  #遍歷25個txt文件
        wordList = textParse(open('email/spam/%d.txt' % i, 'r').read()) #讀取每個垃圾郵件,並字元串轉換成字元串列表
        docList.append(wordList)
        fullText.append(wordList)
        classList.append(1)#標記垃圾郵件,1表示垃圾文件
        wordList = textParse(open('email/ham/%d.txt' % i, 'r').read())#讀取每個非垃圾郵件,並字元串轉換成字元串列表
        docList.append(wordList)
        fullText.append(wordList)
        classList.append(0)#標記非垃圾郵件,1表示垃圾文件
    vocabList = createVocabList(docList)  #創建辭彙表,不重覆
    trainingSet = list(range(50)); testSet = []#創建存儲訓練集的索引值的列表和測試集的索引值的列表
    for i in range(10):   #從50個郵件中,隨機挑選出40個作為訓練集,10個做測試集
        randIndex = int(random.uniform(0, len(trainingSet)))  #隨機選取索索引值
        testSet.append(trainingSet[randIndex])#添加測試集的索引值
        del(trainingSet[randIndex])  #在訓練集列表中刪除添加到測試集的索引值
    trainMat = []; trainClasses = [] #創建訓練集矩陣和訓練集類別標簽系向量
    for docIndex in trainingSet: #遍歷訓練集
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex])) #將生成的詞集模型添加到訓練矩陣中
        trainClasses.append(classList[docIndex]) #將類別添加到訓練集類別標簽系向量中
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))  #訓練朴素貝葉斯模型
    errorCount = 0   #錯誤分類計數
    for docIndex in testSet:  #遍歷測試集
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])  #測試集的詞集模型
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:    #如果分類錯誤
            errorCount += 1                                                 #錯誤計數加1
            print("分類錯誤的測試集:",docList[docIndex])
    print('錯誤率:%.2f%%' % (float(errorCount) / len(testSet) * 100))

測試結果


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • echarts是百度推出的一款開源的基於`JavaScript`的可視化圖表庫,該開發庫目前發展非常不錯,且支持各類圖形的繪製可定製程度高,Echarts繪圖庫同樣可以與`Flask`結合,前臺使用`echart`繪圖庫進行圖形的生成與展示,後臺則是Flask通過`render_template`方... ...
  • 類變數: 什麼是類變數? 一個可以被一個類所有對象共用的變數 類變數關鍵字? static 類變數語法? 訪問修飾符 static 數據類型 變數名; [推薦使用] static 訪問修飾符 數據類型 變數名; 入門案例: count被child1和child2共用,只要是Child類的對象都可以共 ...
  • 上一章講到如何將程式寫入到ESP8266 WiFi模塊中,實現物聯網終端對硬體的控制。本章將通過fubuki-iot實現自定義硬體控制。同時給出一個替代百度API的方案。 硬體準備 (無) 自定義語義模型 在第一章的“提醒事項”的例子中,fubuki-iot就展現了語義模型的功能。它將命中語義模型的 ...
  • 原文:Libgdx游戲開發(2)——接水滴游戲實現 - Stars-One的雜貨小窩 本文使用Kotlin語言開發 通過本文的學習可以初步瞭解以下基礎知識的使用: Basic file access Clearing the screen Drawing images Using a camera ...
  • 一、後臺管理系統配置 1 在該表對應的models類裡面添加一個Meta類 class Meta: verbose_name_plural = '用戶表' # 指定該表在admin後臺的名字為: 用戶表 # verbose_name = '用戶表' # 末尾還是會自動加s 2 null=True,b ...
  • 我們看到下麵的示例圖是 在右鍵文件夾上查看菜單,帶有兩級的菜單選項。 文件夾 空白處 需要使用管理員許可權運行 因為右鍵菜單需要註冊表信息,打開註冊表需要管理員許可權UAC,所以在執行命令過程中需要使用管理員許可權來執行命令 import sys import winreg as reg import o ...
  • 我的博客 這個教程只適合windows,linux不適用,不過話說回來了,linux都是自帶python的,所以已經預置好了,只要打python就行了,根本不用加環境變數 言歸正傳 寫了好長時間的python,最近發現個很基礎的問題,就是很多同學已經安裝python了,但是不知道怎麼運行,找了教程, ...
  • 一、SpringMVC簡介 1、什麼是MVC MVC是一種軟體架構的思想,將軟體按照模型、視圖、控制器來劃分 **M:**Model,模型層,指工程中的JavaBean,作用是處理數據 JavaBean分為兩類: 一類稱為實體類Bean:專門存儲業務數據的,如Student、User等 一類稱為業務 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...