朴素貝葉斯演算法

来源:https://www.cnblogs.com/kuaizifeng/archive/2018/05/31/9117916.html
-Advertisement-
Play Games

一、朴素貝葉斯分類演算法簡述 1、貝葉斯公式和全概率公式 舉一個概率論中的例子。設某工廠有甲、乙、丙三個車間生產同一種產品,已知各車間的產量分別占全廠產量的25%、35%、40%,而且各車間的次品率依次為5%、4%、2%。現問: (1)生產的產品是次品的概率是多少? (2)如果是次品,該次品是甲工廠生 ...


一、朴素貝葉斯分類演算法簡述

  1、貝葉斯公式和全概率公式

  舉一個概率論中的例子。設某工廠有甲、乙、丙三個車間生產同一種產品,已知各車間的產量分別占全廠產量的25%、35%、40%,而且各車間的次品率依次為5%、4%、2%。現問:

  (1)生產的產品是次品的概率是多少?

  (2)如果是次品,該次品是甲工廠生產的概率是多少?

  顯然:

  設一個產品屬於甲、乙、丙工廠的概率分別為P(A) = 0.25, P(B) = 0.35, P(C) = 0.4。如果用no 表示次品,則有p(no|A) = 0.05, p(no|B) = 0.04, p(no|C) = 0.02。

  那麼對於第一問,可以用全概率公式計算:

  p(no) = p(no|A)*p(A) + p(no|B)*p(B) + p(no|C)*p(C) = 0.25*0.05 + 0.35*0.04 + 0.4*0.02 = 0.0345

  對於第二問,則計算p(no)中出現p(no|A)*p(A)的概率即可:

  p(A|no) = p(no|A)*p(A) / p(no) = 0.3623

  2、朴素貝葉斯之核

  貝葉斯分類演算法的一個核心思想是:如果知道某些特征,怎麼可以確定它屬於哪個類別?

  觀察貝葉斯公式:

      $$P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)}$$

  我們可以借用貝葉斯公式,將貝葉斯分類器表達為:

      $$ P("屬於某類"|"具有某些特征") = \frac{P("具有某些特征"|"屬於某類") P("屬於某類")}{P("具有某特征")} $$

  對於上面的一些概率,作如下解釋:

    1.P("具有某些特征"|"屬於某類"):在已知某樣本"屬於某類"的條件下,該樣本"具有某特征"的概率。對於已有的訓練集,這個條件是已知的。

    2.P("屬於某類"):在未知某樣本"具有某特征"的條件下,該樣本"屬於某類"的概率。對於已有的訓練集,這個條件也是已知的。比如100個樣本,有60個是a,有40個是b。那麼在不知道新樣本的具體數值時,我們認為它屬於a的概率是60%,屬於b的概率是40%。它叫作先驗概率。

    3.P("具有某特征"):在未知某樣本"屬於某類"的條件下,該樣本"具有某特征"的概率。對於一個給定的樣本,我們認為它具有某特征的概率恆為1,因為它的特征已完全給定。

    4.P("屬於某類"|"具有某特征"):在已知某樣本"具有某特征"的條件下,該樣本"屬於某類"的概率。它叫作後驗概率。這是我們想要得到的結果。

  由此可見,對於P("屬於某類"|"具有某特征")的計算,只需要計算P("具有某些特征"|"屬於某類") P("屬於某類")即可。而P("屬於某類")在給定帶標簽的數據集時可以很簡便的計算得到,所以計算P("具有某些特征"|"屬於某類")才是朴素貝葉斯分類器的核心。

  值得註意的是:全概率公式要求條件概率兩兩獨立。為了滿足其要求,朴素貝葉斯分類器在套用貝葉斯公式時,也假定所有的特征兩兩獨立。儘管在現實中這是不可能的,但在某些應用場景中,朴素貝葉斯的分類效果仍然令人驚嘆。

  3、朴素貝葉斯之刃

  朴素貝葉斯分類器通常出現在文本處理中。提到文本處理就應想到它的一系列流程:獲取文檔、切詞(用戶字典)、清洗(包括停用詞、特殊字元、標點符號等)、降維(稀疏矩陣)、構建向量空間模型(TF-IDF)、建模(LDA等), 或者構建word2Vec、建模(RNN、LSTM)。

  朴素貝葉斯既然認為詞與詞之間的是相互獨立的,顯然要立足於向量空間模型(Vector space model)。

  向量空間模型做法如下:

    將所有語句中的詞生成唯一值(bag of words)序列,作為特征向量。每條語句(文本)出現詞的頻數作為行向量。從而構成向量空間模型。

  舉個例子:

import numpy as np
import pandas as pd
lis = [
    ["dog", "cat", "fish"],
    ["lion", "tiger"],
    ["cat", "fish"],
    ["dog"],
]
bags = list(set([word for row in lis for word in row]))
vsm = np.zeros([len(lis), len(bags)])
for i, row in enumerate(lis):
    for word in row:
        vsm[i, bags.index(word)] += 1
vsm = pd.DataFrame(vsm, columns=bags)
print(vsm)

  列印結果為:

 dogtigerfishlioncat
0 1.0 0.0 1.0 0.0 1.0
1 0.0 1.0 0.0 1.0 0.0
2 0.0 0.0 1.0 0.0 1.0
3 1.0 0.0 0.0 0.0 0.0

  TF-IDF在向量空間模型的基礎上,對每個詞的權重做了一些處理。它認為,如果一個詞在該條句子(對應上表中的一行)中出現的頻率非常高,並且在其它句子中出現的頻率又非常低,那麼這個詞代表的信息量就越大,其權重值也越大。TF(詞頻)用於計算一個詞在該條句子中的頻率,IDF(反文檔頻率)用於計算一個詞在每個句子中出現的頻率。

  例如:

    第0行dog的TF詞頻為:$\frac{[0, dog]}{[0, dog] + [0, fish] + [0, cat]} = 0.33$

    第0行dog的IDF反文檔頻率為:$\log \frac{數據集長度}{[0, dog] + [3, dog]} = \log(4/2) = 0.69$

    第0行dog的TF-IDF權重值為:$ 0.33 * 0.69 = 0.228 $

  向量空間模型中所有元素的TF-IDF權重值構成的矩陣,稱為TF-IDF權重矩陣。TF-IDF權重矩陣為p("屬於某類"|"具有某些特征")的計算提供了基礎。

  4、朴素貝葉斯演算法的流程

    計算每個類別中的文檔數目和其頻率  # 實際計算P("屬於某類”)

    對每篇訓練文檔:
          對每個類別:
              如果詞條出現在文檔中,增加該詞條的計數值
              增加所有詞條的計數值
          對每個類別:
              對每個詞條:
                  將該詞條的數目除以總詞條數目得到條件概率
         返回每個類別的條件概率   # 實際計算P("具有某些特征"|"屬於某類")

二、python3實現朴素貝葉斯

  1、python3實現朴素貝葉斯

  創建LoadDataSet類,用於生成數據集;創建NavieBayes類,用於實現朴素貝葉斯。

    NavieBayes

    train:訓練數據集

    predict:測試數據集

    _calc_wordfreq

import numpy as np
import pandas as pd

class LoadDataSet(object):
    def get_dataSet(self):
        """lis是一行行文字切詞後的文檔集合,內容是斑點犬評論"""
        lis = [
            ["my", "dog", "has", "flea", "problems", "help", "please"],
            ["maybe", "not", "take", "him", "to", "dog", "park", "stupid"],
            ["my", "dalmation", "is", "so", "cute", "I", "love", "him"],
            ["stop", "posting", "stupid", "worthless", "garbage"],
            ["mr", "licks", "ate", "my", "steak", "how", "to", "stop", "him"],
            ["quit", "buying", "worthless", "dog", "food", "stupid"],
        ]
        vec= [0, 1, 0, 1, 0, 1]  # 1代表侮辱性文字,0代表正常言論;對應lis的6行數據
        return lis, vec

class NavieBayes(object):
    def __init__(self):
        self.Pcates = {}
        self.vocabulary  = None
        self.tf = None
    def train(self, trainSet, classVec):
        """訓練集計算"""
        self.Pcates = {
            label:{
                "prob": classVec.count(label)/len(classVec),  # 記錄P("屬於某類")
                "tdm": None                                   # 記錄p("具有某特征"|"屬於某類")
            } for label in set(classVec)
}  # 計算每個類別的先驗概率,保存成字典格式
        self.vocabulary = list(set([word for doc in trainSet for word in doc]))  # 生成詞袋
        self.tf = self._tf_idf(trainSet)
        self._bulid_tdm(trainSet, classVec)
    
    def _tf_idf(self, trainSet):
        """生成tf和idf"""
        # 心中要有tf-idf矩陣
        vocLength = len(self.vocabulary)
        docLength = len(trainSet)
        idf = np.zeros([1, vocLength])  # 因為vocabulary是特征向量,所以寫1 x N的向量,用以表示一個文檔向量中葛格慈的頻率
        tf = np.zeros([docLength, vocLength])  # tf矩陣:每個詞的詞頻矩陣
        for i, doc in enumerate(trainSet):
            for word in doc:   # 統計每一行中的每個詞在該行中出現的次數
                tf[i, self.vocabulary.index(word)] += 1  # 遍歷每個詞,計算其出現的次數並寫到tf矩陣對應的位置
            tf[i] = tf[i] / len(trainSet[i])
            # 這一行的tf除以該行文件中的詞總數(實際上就是row長度)以消除長短句的影響
            for singleword in set(doc):
                idf[0, self.vocabulary.index(singleword)] += 1  # 統計每個文檔里的詞在所有文檔里出現的次數
            idf = np.log(len(trainSet) / (idf + 1))   # +1是為了防止0除
        return np.multiply(tf, idf)
    
    def _bulid_tdm(self, trainSet, classVec):
        """計算每個類別下每個詞出現的概率"""
        tf_labels = np.c_[self.tf, labels]  # 在權重矩陣後面增加一列labels
        for label in self.Pcates.keys():
            label_tf_group = tf_labels[tf_labels[:, -1] == label][:, :-1]  # 獲取label類對應的tf子矩陣
            label_tf = np.sum(label_tf_group, axis=0)/np.sum(label_tf_group)  # 行累加除以總值
            self.Pcates[label]["tdm"] = label_tf  # p("具有某特征"|"屬於某類")
    
    def predict(self, test_wordList):
        """測試分類數據"""
        # 首先根據word_list生成詞向量
        test_wordArray = np.zeros([1, len(self.vocabulary)])
        for word in test_wordList:
            test_wordArray[0, self.vocabulary.index(word)] += 1
        # 其次計算p("具有某特征"|"屬於某類") * p("屬於某類")
        # 不計算p("具有某特征")是因為假定對於每個測試的樣本,它們具有的特征是完全隨機的,都是一樣的概率。
        pred_prob = 0
        pred_label = None
        for label, val in self.Pcates.items():
            test_prob = np.sum(test_wordArray * val["tdm"] * val["prob"])
            if test_prob > pred_prob:
                pred_prob = test_prob
                pred_label = label
        return {"predict_probability": round(pred_prob,4), "predict_label": pred_label}

  來一段測試代碼:

load = LoadDataSet()
trainSet, labels = load.get_dataSet()
bayes = NavieBayes()
bayes.train(trainSet, labels)
bayes.predict(trainSet[0])

  2、sikit-learn實現朴素貝葉斯

   這裡要用到sklearn.feature_extraction.text中的TfidfTransformerCountVectorizer

from sklearn import naive_bayes
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

trainSet, labels = LoadDataSet().get_dataSet()
trainSet = [" ".join(row) for row in trainSet]

vectorizer = CountVectorizer()     # 用拼接的句子輸入,它要生成svm,不接受長短不一的列表
transformer = TfidfTransformer()   # tf-idf權重矩陣

vsm = vectorizer.fit_transform(trainSet)  # 訓練vsm模型
# print(vsm.toarray())  
# 更多方法請參閱 http://scikit-learn.org/stable/modules/feature_extraction.html#common-vectorizer-usage
tfidf = transformer.fit_transform(svm)    # 轉換成tf-idf模型

# 生成測試用的數據
test = vectorizer.transform([trainSet[0]])
test = transformer.transform(test)

# 這裡用混合貝葉斯模型;有興趣的可以看伯努利模型、高斯模型
bys = naive_bayes.MultinomialNB()
bys.fit(tfidf, labels)

testData = trainSet[0]
bys.predict(test)

  


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 由面向對象的思想引入面向對象的設計,最後面向對象編程。 類的練習: 類的練習二: 老師http://www.cnblogs.com/linhaifeng/articles/6182264.html ...
  • 在我們給外部提供的API中,可會存在多個版本,不同的版本可能對應的功能不同,所以這時候版本使用就顯得尤為重要,django rest framework也為我們提供了多種版本使用方法。 版本使用方式: 1.在url中傳遞版本:如http://www.example.com/api?version=v ...
  • (一) 冒泡排序 冒泡排序的作用就是反覆交換相鄰未按次序排列的數據。 看下麵這張圖,不難發現,第二重for迴圈每一輪迴圈結束後都會排好一個數據 第一輪結束後是:[8, 7, 3, 1, 11],不難發現,11是排序好了的,所以第二輪的迴圈次數在這次的基礎上-1就行了,即len(data)-1-i 第 ...
  • 什麼是數組:就是一堆相同類型的數據放一堆(一組相關變數的集合) 定義語法: 數據類型 數組名[] = new 數據類型[長度]; 聲明數組:數據類型 數組名 [] = null; 開闢數組:數組名 = new 數據類型[長度]; 記憶體分析: 2.分佈完成 數組記憶體引用 數組是一個引用數據類型 以上方 ...
  • 微服務自2014年3月由Martin Fowler首次提出以來,在Spring Cloud、Dubbo等各類微服務框架的幫助下,以燎原之勢席卷了整個IT技術界,成為了最主流的分散式應用解決方案。但仍然還有很多問題沒有得到根本性的解決,比如技術門檻高、多語言支持不足、代碼侵入性強等。如何應對這些挑戰成 ...
  • 作用 官方說明: MyBatis 允許你在已映射語句執行過程中的某一點進行攔截調用。 什麼意思呢?就是你可以對執行某些方法之前進行攔截,做自己的一些操作,如: 1.記錄所有執行的SQL(通過對 MyBatis org.apache.ibatis.executor.statement.Statemen ...
  • 安裝Python Python環境:Python 3.6.5 安裝cx_Freeze pip install cx_freeze 創建setup.py 在需要打包的py文件同級目錄創建setup.py文件 執行打包 切換到setup.py目錄 執行 python setup.py build 打包成 ...
  • 1 模板引擎之過濾器 概念 : 過濾器本質上是個轉換函數,第一個參數是待過濾的變數。如果它有第二個參數,模板中就必須傳進去。 過濾器使用管道符| 放在{{ }} Jinja2模板引擎提供了豐富的內置過濾器,主要分為以下幾類: (1) 字元串進行操作: (2) 對列表進行操作 (3) 對數值進行操作: ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...