stanford-nlp - 斯坦福 NER：我如何创建一个可以使用和测试的新训练集？

Question

根据我的理解，要创建一个训练文件，你把你的话放在一个文本文件中。然后在每个单词后面加上一个空格或制表符以及标签（例如 PERS、LOC 等...）

我还将示例属性文件中的文本复制到写字板中。如何将这些放入可以输入分类器并使用的 gz 文件中？

不过请指导我。我是一个新手，对技术相当无能。

score 2 · Accepted Answer

您的训练文件（例如training-data.tsv）应如下所示：

I   O
drove   O
to  O
Vancouver   LOCATION
BC  LOCATION
yesterday   O

whereO表示“外部”，如不是命名实体。

其中列之间的空间是 a tab。

你不要把它们放在一个ser.gz文件中。ser.gz 文件是训练过程创建的分类器模型。

要训练分类器运行：

java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties

my-classifier.properties看起来像这样：

trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...

score 0 · Accepted Answer

我建议您查看 NLTK 文档以了解有关训练解析器http://nltk.googlecode.com/svn/trunk/doc/howto/tag.html的更多信息。现在，您似乎想训练 CRFClassifier（而不是解析器！）；为此，您可能需要查看此常见问题解答http://nlp.stanford.edu/software/crf-faq.shtml#a

2 回答 2