python-2.7 - 是什么创造了“maxent_treebank_pos_tagger/english.pickle”？

Question

包的nltk内置词性标注器似乎没有针对我的用例进行优化（例如这里）。这里的源代码显示它使用了一个保存的、预先训练好的分类器，称为maxent_treebank_pos_tagger.

创造了maxent_treebank_pos_tagger/english.pickle什么？我猜在某处有一个标记语料库用于训练这个标记器，所以我想我正在寻找（a）标记语料库和（b）基于标记训练标记器的确切代码语料库。

除了大量的谷歌搜索外，到目前为止，我还尝试.pickle直接查看该对象以查找其中的任何线索，就像这样开始

from nltk.data import load
x = load("nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle")
dir(x)

score 6 · Accepted Answer

NLTK 的 MaxEnt POS 标注器的原始来源来自https://github.com/arne-cl/nltk-maxent-pos-tagger

训练数据：Penn Tree 银行语料库的华尔街日报子集

算法：最大熵

1 回答 1