包的nltk
内置词性标注器似乎没有针对我的用例进行优化(例如这里)。这里的源代码显示它使用了一个保存的、预先训练好的分类器,称为maxent_treebank_pos_tagger
.
创造了maxent_treebank_pos_tagger/english.pickle
什么?我猜在某处有一个标记语料库用于训练这个标记器,所以我想我正在寻找(a)标记语料库和(b)基于标记训练标记器的确切代码语料库。
除了大量的谷歌搜索外,到目前为止,我还尝试.pickle
直接查看该对象以查找其中的任何线索,就像这样开始
from nltk.data import load
x = load("nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle")
dir(x)