[TOC] 詞性標註器 之後的很多工作都需要標註完的辭彙。nltk自帶英文標註器 標註語料庫 表示已經標註的標識符: 讀取已經標註的語料庫 nltk語料庫ue肚臍提供了統一介面,可以不必理會不同的文件格式。格式: 。參數可以指定categories和fields 名詞、動詞、形容詞等 這裡以名詞為例 ...
[TOC]
詞性標註器
之後的很多工作都需要標註完的辭彙。nltk自帶英文標註器
pos_tag
import nltk
text = nltk.word_tokenize("And now for something compleyely difference")
print(text)
print(nltk.pos_tag(text))
標註語料庫
表示已經標註的標識符:nltk.tag.str2tuple('word/類型')
text = "The/AT grand/JJ is/VBD ."
print([nltk.tag.str2tuple(t) for t in text.split()])
讀取已經標註的語料庫
nltk語料庫ue肚臍提供了統一介面,可以不必理會不同的文件格式。格式:
語料庫.tagged_word()/tagged_sents()
。參數可以指定categories和fields
print(nltk.corpus.brown.tagged_words())
名詞、動詞、形容詞等
這裡以名詞為例
from nltk.corpus import brown
word_tag = nltk.FreqDist(brown.tagged_words(categories="news"))
print([word+'/'+tag for (word,tag)in word_tag if tag.startswith('V')])
################下麵是查找money的不同標註#################################
wsj = brown.tagged_words(categories="news")
cfd = nltk.ConditionalFreqDist(wsj)
print(cfd['money'].keys())
嘗試找出每個名詞類型中最頻繁的名詞
def findtag(tag_prefix,tagged_text):
cfd = nltk.ConditionalFreqDist((tag,word) for (word,tag) in tagged_text if tag.startswith(tag_prefix))
return dict((tag,list(cfd[tag].keys())[:5]) for tag in cfd.conditions())#數據類型必須轉換為list才能進行切片操作
tagdict = findtag('NN',nltk.corpus.brown.tagged_words(categories="news"))
for tag in sorted(tagdict):
print(tag,tagdict[tag])
探索已經標註的語料庫
需要
nltk.bigrams()
和nltk.trigrams()
,分別對應2-gram模型和3-gram模型。
brown_tagged = brown.tagged_words(categories="learned")
tags = [b[1] for (a,b) in nltk.bigrams(brown_tagged) if a[0]=="often"]
fd = nltk.FreqDist(tags)
fd.tabulate()
自動標註
預設標註器
最簡單的標註器是為每個標識符分配統一標記。下麵就是一個將所有詞都變成NN的標註器。並且用
evaluate()
進行檢驗。當很多詞語是名詞時候,它有利於第一次分析並提高穩定性。
brown_tagged_sents = brown.tagged_sents(categories="news")
raw = 'I do not like eggs and ham, I do not like them Sam I am'
tokens = nltk.word_tokenize(raw)
default_tagger = nltk.DefaultTagger('NN')#創建標註器
print(default_tagger.tag(tokens)) # 調用tag()方法進行標註
print(default_tagger.evaluate(brown_tagged_sents))
正則表達式標註器
註意這裡規則是固定(由自己決定)。當規則越來越完善的時候,精確度越高。
patterns = [
(r'.*ing$','VBG'),
(r'.*ed$','VBD'),
(r'.*es$','VBZ'),
(r'.*','NN')#為了方便,只有少量規則
]
regexp_tagger = nltk.RegexpTagger(patterns)
regexp_tagger.evaluate(brown_tagged_sents)
查詢標註器
這裡和書里是有差別的,不同於python2,註意調試。而查詢標註器就是存儲最有可能的標記,並且可以設置
backoff
參數,不能標記的情況下,就使用這個標註器(這個過程是回退)
fd = nltk.FreqDist(brown.words(categories="news"))
cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories="news"))
##############################################python2和3的區別#########
most_freq_words = fd.most_common(100)
likely_tags = dict((word,cfd[word].max()) for (word,times) in most_freq_words)
#######################################################################
baseline_tagger = nltk.UnigramTagger(model=likely_tags,backoff=nltk.DefaultTagger('NN'))
baseline_tagger.evaluate(brown_tagged_sents)
N-gram標註
基礎的一元標註器
一元標註器的行為和查找標註器很相似,建立一元標註器的技術,為訓練。
這裡我們的標註器只是記憶訓練集,而不是建立一般模型,那麼吻合很好,但是不能推廣到新文本。
size = int(len(brown_tagged_sents)*0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size+1:]
unigram_tagger = nltk.UnigramTagger(train_sents)
unigram_tagger.evaluate(test_sents)
一般的N-gram標註器
N元標註器,就是檢索index= n 的 word,並且檢索n-N<=index<=n-1 的 tag。即通過前面詞的tag標簽,進一步確定當前辭彙的tag。類似於
nltk.UnigramTagger()
,自帶的二元標註器為:nltk.BigramTagger()
用法一致。
組合標註器
很多時候,覆蓋範圍更廣的演算法比精度更高的演算法更有用。利用
backoff
指明回退標註器,來實現標註器的組合。而參數cutoff
顯式聲明為int型,則會自動丟棄只出現1-n次的上下文。
t0 = nltk.DefaultTagger('NN')
t1 = nltk.UnigramTagger(train_sents,backoff=t0)
t2 = nltk.BigramTagger(train_sents,backoff=t1)
t2.evaluate(test_sents)
可以發現,和原來比較之後,精確度明顯提高
跨句子邊界標註
對於句首的單詞,沒有前n個單詞。解決方法:通過已標記的tagged_sents來訓練標註器。
基於轉換的標註:Brill標註器
較上面的都優秀。實現的思路:以大筆化開始,然後修複細節,一點點進行細緻改變。
不僅占用記憶體小,而且關聯上下文,並且根據問題的變小,實時修正錯誤,而不是一成不變的。當然,在python3和python2的調用有所不同。
from nltk.tag import brill
brill.nltkdemo18plus()
brill.nltkdemo18()
歡迎進一步交流本博文相關內容:
博客園地址 : http://www.cnblogs.com/AsuraDong/
CSDN地址 : http://blog.csdn.net/asuradong
也可以致信進行交流 : [email protected]
歡迎轉載 , 但請指明出處 : )