java - 在 Eclipse 中重新训练 stanford nlp pos tagger

Question

我对 nlp 很陌生，我正在尝试找出 pos 标记。目前我正在试用 stanford nlp pos tagger，网址： http: //nlp.stanford.edu/software/tagger.shtml

从上面的链接，有这句话：

给定语言的 POS 注释训练文本，可以在任何语言上重新训练标注器。

但是，我无法让它工作。我现在所能做的就是给它一个文本文件来标记。例如String test = "this is a test";将返回我 this_DT is_VBZ a_DT test_NN。

我该如何重新训练标记器？假设我希望将上述字符串作为 this_DT is_VBZ a_DT test_VB 返回？

感谢这里的任何答案。

score 0 · Accepted Answer

除非您有一个 POS 标记语料库，其中包含许多您希望纠正的现象/现象示例，否则您可能无法重新训练标记器模型。澄清一下，根据我对斯坦福工具进行培训的期望，没有机制可以添加单个示例来更改模型。您将需要拥有完整的语料库并重新进行重新训练。

如果您确实有语料库，那么我会参考之前发布的这个问题，以获取有关文件格式的详细信息以及训练斯坦福 CoreNLP 模型的正确步骤。

否则，最好的办法是编写一些覆盖行为的后处理规则/正则表达式模式。此类规则的用途是确保单词列表中的人和地点被标记为专有名词 (NNP)。

祝你好运！

1 回答 1