3

根据我的理解,要创建一个训练文件,你把你的话放在一个文本文件中。然后在每个单词后面加上一个空格或制表符以及标签(例如 PERS、LOC 等...)

我还将示例属性文件中的文本复制到写字板中。如何将这些放入可以输入分类器并使用的 gz 文件中?

不过请指导我。我是一个新手,对技术相当无能。

4

2 回答 2

2

您的训练文件(例如training-data.tsv)应如下所示:

I   O
drove   O
to  O
Vancouver   LOCATION
BC  LOCATION
yesterday   O

whereO表示“外部”,如不是命名实体。

其中列之间的空间是 a tab

你不要把它们放在一个ser.gz文件中。ser.gz 文件是训练过程创建的分类器模型。

要训​​练分类器运行:

java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties

my-classifier.properties看起来像这样:

trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...
于 2014-01-30T00:15:54.113 回答
0

我建议您查看 NLTK 文档以了解有关训练解析器http://nltk.googlecode.com/svn/trunk/doc/howto/tag.html的更多信息 。现在,您似乎想训练 CRFClassifier(而不是解析器!);为此,您可能需要查看此常见问题解答http://nlp.stanford.edu/software/crf-faq.shtml#a

于 2013-07-19T02:27:58.240 回答