根据我的理解,要创建一个训练文件,你把你的话放在一个文本文件中。然后在每个单词后面加上一个空格或制表符以及标签(例如 PERS、LOC 等...)
我还将示例属性文件中的文本复制到写字板中。如何将这些放入可以输入分类器并使用的 gz 文件中?
不过请指导我。我是一个新手,对技术相当无能。
根据我的理解,要创建一个训练文件,你把你的话放在一个文本文件中。然后在每个单词后面加上一个空格或制表符以及标签(例如 PERS、LOC 等...)
我还将示例属性文件中的文本复制到写字板中。如何将这些放入可以输入分类器并使用的 gz 文件中?
不过请指导我。我是一个新手,对技术相当无能。
您的训练文件(例如training-data.tsv
)应如下所示:
I O
drove O
to O
Vancouver LOCATION
BC LOCATION
yesterday O
whereO
表示“外部”,如不是命名实体。
其中列之间的空间是 a tab
。
你不要把它们放在一个ser.gz
文件中。ser.gz 文件是训练过程创建的分类器模型。
要训练分类器运行:
java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties
my-classifier.properties
看起来像这样:
trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...
我建议您查看 NLTK 文档以了解有关训练解析器http://nltk.googlecode.com/svn/trunk/doc/howto/tag.html的更多信息 。现在,您似乎想训练 CRFClassifier(而不是解析器!);为此,您可能需要查看此常见问题解答http://nlp.stanford.edu/software/crf-faq.shtml#a