nlp入門（三）基於貝葉斯演算法的拼寫錯誤檢測器

-Advertisement-

源碼請到：自然語言處理練習: 學習自然語言處理時候寫的一些代碼 (gitee.com) 數據來源：norvig.com/big.txt 貝葉斯原理可看這裡：機器學習演算法學習筆記 - 過客匆匆，沉沉浮浮 - 博客園 (cnblogs.com) 一、數據預處理將輸入的數據全部變為小寫方便後續處理 de ...

源碼請到：自然語言處理練習: 學習自然語言處理時候寫的一些代碼 (gitee.com)

數據來源：norvig.com/big.txt

貝葉斯原理可看這裡：機器學習演算法學習筆記 - 過客匆匆，沉沉浮浮 - 博客園 (cnblogs.com)

一、數據預處理

將輸入的數據全部變為小寫方便後續處理

def words(text):
    return re.findall('[a-z]+', text.lower())

二、根據語料庫統計不同單詞出現的詞頻

單詞字典每個單詞詞頻預設為1，因為如果單詞字典預設值為為0，那麼出現了語料庫中沒有的單詞，就會預設概率為0，導致新的單詞無法被識別

def train(features):
    model = collections.defaultdict(lambda: 1)  # 如果預設為0則出現語料庫中沒有的新詞會不識別，所以預設為1
    for f in features:
        model[f] += 1
    return model

三、打開語料庫與構建字母表

NWORDS = train(words(open('data/big.txt').read()))
alphabet = 'abcdefghijklmnopqrstuvwxyz'

四、返回編輯距離為1的單詞

單詞a經過n次修改可以得到新的單詞b，那我們叫b為a的編輯距離為1的單詞，下麵函數就返回編輯距離為1的單詞

# 返回編輯距離為1的單詞
def editsl(word):
    n = len(word)
    return set([word[0:i] + word[i + 1:] for i in range(n)] +  # 字母打多了一個
               [word[0:i] + word[i + 1] + word[i] + word[i + 2:] for i in range(n - 1)] +  # 字母打反了一個
               [word[0:i] + c + word[i + 1:] for i in range(n) for c in alphabet] +  # 字母打錯了一個
               [word[0:i] + c + word[i:] for i in range(n + 1) for c in alphabet])  # 字母打少了一個

五、返回編輯距離為2的單詞

# 考慮編輯距離為2的單詞
def known_edits2(word):
    return set(e2 for e1 in editsl(word) for e2 in editsl(e1) if e2 in NWORDS)

六、判斷單詞是否在語料庫中

def known(words):
    return set(w for w in words if w in NWORDS)

七、糾正拼寫錯誤的單詞

優先考慮原單詞a是否在語料庫中，如果存在就返回原單詞，不存在就考慮編輯距離為1的單詞，返回使用頻率最高的那個如果編輯距離為1的單詞也不在語料庫中，那麼就考慮編輯距離為2的單詞，同樣，如果編輯距離為2的單詞都不在語料庫中，那麼這可能是一個新的單詞，直接返回單詞本身

def correct(word):
    candidates = known([word]) or known(editsl(word)) or known_edits2(word) or [word]
    return max(candidates, key=lambda w: NWORDS[w])

八、測試結果

print(correct('appl'))
print(correct('appla'))
print(correct('learw'))
print(correct('tess'))
print(correct('morw'))

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

由put方法深入瞭解HashMap

## 正文 #### put方法 ``` public V put(K key, V value) { return putVal(hash(key), key, value, false, true); } ``` **當進入put方法中時，首先將鍵值賦給key和value，再通過key計算出相對 ...
Java源代碼是如何編譯，載入到記憶體中的？

1.前言相信許多開發同學看過《深入理解java虛擬機》，也閱讀過java虛擬機規範，書籍和文檔給人的感覺不夠直觀，本文從一個簡單的例子來看看jvm是如何工作的吧。本文所有操作均在mac上進行。 2.示例代碼示例代碼採用最常見的雙重檢索單例模式： package interview.desgin ...
Python迭代器的__iter__和__next__詳細教程

在 Python 中，迭代器是一個實現了 `__iter__` 和 `__next__` 方法的對象。`__iter__` 方法返回迭代器對象自身，而 `__next__` 方法返回下一個元素。換句話說，迭代器是一個可以逐個返回元素的對象。下麵是一個簡單的迭代器示例，演示瞭如何實現 `__iter ...
python帶參數裝飾器的兩種寫法

Go語言的泛型是在Go 1.18版本中引入的一個新特性，它允許開發者編寫可以處理不同數據類型的代碼，而無需為每種數據類型都編寫重覆的代碼。以下是關於Go語言泛型的一些關鍵點： 1. 泛型是通過在函數或類型定義中使用類型參數來實現的。類型參數可以被看作是一個特殊的類型，它可以在函數或類型定義中的任何位 ...
1.0 Python 標準輸入與輸出

python 是一種高級、面向對象、通用的編程語言，由`Guido van Rossum`發明，於1991年首次發佈。python 的設計哲學強調代碼的可讀性和簡潔性，同時也非常適合於大型項目的開發。python 語言被廣泛用於Web開發、科學計算、人工智慧、自動化測試、游戲開發等各個領域，並且擁有... ...
hibernate入門

Hibernate 是一個開源的 ORM（對象關係映射）框架，它可以將 Java 對象與資料庫表進行映射，從而實現面向對象的數據持久化。使用 Hibernate，可以避免手動編寫 SQL 語句，從而提高開發效率，並且可以輕鬆地切換不同的資料庫。 ## 基礎概念 entity 實體類是映射到資料庫表中 ...
用PHP封裝一個強大且通用的cURL方法

用PHP封裝一個強大且通用的cURL方法。用PHP封裝一個強大且通用的cURL方法。用PHP封裝一個強大且通用的cURL方法。用PHP封裝一個強大且通用的cURL方法。 ```php /** * @function 強大且通用的cURL請求庫 * @param $url string 路徑如 ...
spring多數據源動態切換的實現原理及讀寫分離的應用

AbstractRoutingDataSource是Spring框架中的一個抽象類，可以實現多數據源的動態切換和路由，以滿足複雜的業務需求和提高系統的性能、可擴展性、靈活性。 ...