NLTK學習筆記(五):分類和標註辭彙

来源:http://www.cnblogs.com/AsuraDong/archive/2017/06/13/6995808.html
-Advertisement-
Play Games

[TOC] 詞性標註器 之後的很多工作都需要標註完的辭彙。nltk自帶英文標註器 標註語料庫 表示已經標註的標識符: 讀取已經標註的語料庫 nltk語料庫ue肚臍提供了統一介面,可以不必理會不同的文件格式。格式: 。參數可以指定categories和fields 名詞、動詞、形容詞等 這裡以名詞為例 ...


[TOC]

詞性標註器

之後的很多工作都需要標註完的辭彙。nltk自帶英文標註器pos_tag

import nltk
text = nltk.word_tokenize("And now for something compleyely difference")
print(text)
print(nltk.pos_tag(text))

標註語料庫

表示已經標註的標識符:nltk.tag.str2tuple('word/類型')

text = "The/AT grand/JJ is/VBD ."
print([nltk.tag.str2tuple(t) for t in text.split()])

讀取已經標註的語料庫

nltk語料庫ue肚臍提供了統一介面,可以不必理會不同的文件格式。格式:語料庫.tagged_word()/tagged_sents()。參數可以指定categories和fields

print(nltk.corpus.brown.tagged_words())

名詞、動詞、形容詞等

這裡以名詞為例

from nltk.corpus import brown
word_tag = nltk.FreqDist(brown.tagged_words(categories="news"))
print([word+'/'+tag for (word,tag)in word_tag if tag.startswith('V')])
################下麵是查找money的不同標註#################################
wsj = brown.tagged_words(categories="news")
cfd = nltk.ConditionalFreqDist(wsj)
print(cfd['money'].keys())

嘗試找出每個名詞類型中最頻繁的名詞

def findtag(tag_prefix,tagged_text):
    cfd = nltk.ConditionalFreqDist((tag,word) for (word,tag) in tagged_text if tag.startswith(tag_prefix))
    return dict((tag,list(cfd[tag].keys())[:5]) for tag in cfd.conditions())#數據類型必須轉換為list才能進行切片操作

tagdict = findtag('NN',nltk.corpus.brown.tagged_words(categories="news"))
for tag in sorted(tagdict):
    print(tag,tagdict[tag])

探索已經標註的語料庫

需要nltk.bigrams()nltk.trigrams(),分別對應2-gram模型和3-gram模型。

brown_tagged = brown.tagged_words(categories="learned")
tags = [b[1] for (a,b) in nltk.bigrams(brown_tagged) if a[0]=="often"]
fd = nltk.FreqDist(tags)
fd.tabulate()

自動標註

預設標註器

最簡單的標註器是為每個標識符分配統一標記。下麵就是一個將所有詞都變成NN的標註器。並且用evaluate()進行檢驗。當很多詞語是名詞時候,它有利於第一次分析並提高穩定性。

brown_tagged_sents = brown.tagged_sents(categories="news")

raw = 'I do not like eggs and ham, I do not like them Sam I am'
tokens = nltk.word_tokenize(raw)
default_tagger = nltk.DefaultTagger('NN')#創建標註器
print(default_tagger.tag(tokens)) # 調用tag()方法進行標註
print(default_tagger.evaluate(brown_tagged_sents))

正則表達式標註器

註意這裡規則是固定(由自己決定)。當規則越來越完善的時候,精確度越高。

patterns = [
    (r'.*ing$','VBG'),
    (r'.*ed$','VBD'),
    (r'.*es$','VBZ'),
    (r'.*','NN')#為了方便,只有少量規則
]
regexp_tagger = nltk.RegexpTagger(patterns)
regexp_tagger.evaluate(brown_tagged_sents)

查詢標註器

這裡和書里是有差別的,不同於python2,註意調試。而查詢標註器就是存儲最有可能的標記,並且可以設置backoff參數,不能標記的情況下,就使用這個標註器(這個過程是回退

fd = nltk.FreqDist(brown.words(categories="news"))
cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories="news"))
##############################################python2和3的區別#########
most_freq_words = fd.most_common(100)
likely_tags = dict((word,cfd[word].max()) for (word,times) in most_freq_words)
#######################################################################
baseline_tagger = nltk.UnigramTagger(model=likely_tags,backoff=nltk.DefaultTagger('NN'))
baseline_tagger.evaluate(brown_tagged_sents)

N-gram標註

基礎的一元標註器

一元標註器的行為和查找標註器很相似,建立一元標註器的技術,為訓練

這裡我們的標註器只是記憶訓練集,而不是建立一般模型,那麼吻合很好,但是不能推廣到新文本。

size = int(len(brown_tagged_sents)*0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size+1:]
unigram_tagger = nltk.UnigramTagger(train_sents)
unigram_tagger.evaluate(test_sents)

一般的N-gram標註器

N元標註器,就是檢索index= n 的 word,並且檢索n-N<=index<=n-1 的 tag。即通過前面詞的tag標簽,進一步確定當前辭彙的tag。類似於nltk.UnigramTagger(),自帶的二元標註器為:nltk.BigramTagger()用法一致。

組合標註器

很多時候,覆蓋範圍更廣的演算法比精度更高的演算法更有用。利用backoff指明回退標註器,來實現標註器的組合。而參數cutoff顯式聲明為int型,則會自動丟棄只出現1-n次的上下文。

t0 = nltk.DefaultTagger('NN')
t1 = nltk.UnigramTagger(train_sents,backoff=t0)
t2 = nltk.BigramTagger(train_sents,backoff=t1)
t2.evaluate(test_sents)

可以發現,和原來比較之後,精確度明顯提高

跨句子邊界標註

對於句首的單詞,沒有前n個單詞。解決方法:通過已標記的tagged_sents來訓練標註器。


基於轉換的標註:Brill標註器

較上面的都優秀。實現的思路:以大筆化開始,然後修複細節,一點點進行細緻改變。
不僅占用記憶體小,而且關聯上下文,並且根據問題的變小,實時修正錯誤,而不是一成不變的。當然,在python3和python2的調用有所不同。

from nltk.tag import brill
brill.nltkdemo18plus()
brill.nltkdemo18()

歡迎進一步交流本博文相關內容:

博客園地址 : http://www.cnblogs.com/AsuraDong/

CSDN地址 : http://blog.csdn.net/asuradong

也可以致信進行交流 : [email protected]

歡迎轉載 , 但請指明出處  :  )



您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Object中的公共方法解釋: 公共方法: Equals: public class Object { public virtual Boolean Equals(Object obj) { //如果兩個引用指向同一個對象,他們肯定包含相同的值 if (this == obj) return tru ...
  • 由於種種原因吧,我需要使用一個WPF程式起調一個UWP程式,下麵總結一下,給自己個備份。 啟動UWP程式的關鍵是協議啟動 給我們的UWP應用添加一個協議,like this: 然後使用協議啟動該UWP有一下幾種方式: 1. 使用UWP的Launcher API // Create the URI t ...
  • 背水一戰 Windows 10 之 控制項(集合類 - ItemsControl): 自定義 ItemsControl(自定義 GirdView 使其每個 item 占用不同大小的空間), 自定義 ContentPresenter 實現類似 GridViewItemPresenter 和 ListVi... ...
  • 前幾天需要在UWP中實現吸頂,就在網上找了一些文章: 吸頂大法 -- UWP中的工具欄吸頂的實現方式之一 在UWP中頁面滑動導航欄置頂 發現前人的實現方式大多是控制ListViewBase的Header變換高度,或者建立一個ScrollViewer在裡面放置ListViewBase。經過測試,這兩種 ...
  • 很多人在寫代碼的時候關於路徑這個問題很頭疼,其實路徑是很簡單的,只是沒人幫我們點投!初次學習程式的人,我相信肯定會遇到和我一樣的問題,比如說,“/”和“~”引用路勁的區別,接下來看吧,這篇文章肯定會將你點透的,看完這篇文章你一定會有一種山重水複疑無路,柳暗花明又一村的感覺! [註:]博主微信:jkx ...
  • 題目鏈接 Problem Description Given the finite multi-set A of n pairs of integers, an another finite multi-set B of m triples of integers, we define the pr ...
  • 本節介紹正則表達式相關的Java API,討論在Java中利用正則表達式實現文本的切分、驗證、查找和替換,對於替換,我們演示一個簡單的模板引擎 ...
  • 裝飾器前奏1 定義:本質是函數,用來裝飾其它函數,就是為其他函數來添加附加功能 原則:1、不能修改被修飾函數的源代碼以及調用方式 裝飾器前奏2 實現裝飾器只是儲備: 1、函數即”變數“ 2、高階函數 3、嵌套函數 高階函數+嵌套函數=》裝飾器 裝飾器前奏3 裝飾器前奏4 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...