1

我对 nlp 很陌生,我正在尝试找出 pos 标记。目前我正在试用 stanford nlp pos tagger,网址: http: //nlp.stanford.edu/software/tagger.shtml

从上面的链接,有这句话:

给定语言的 POS 注释训练文本,可以在任何语言上重新训练标注器。

但是,我无法让它工作。我现在所能做的就是给它一个文本文件来标记。例如String test = "this is a test";将返回我 this_DT is_VBZ a_DT test_NN。

我该如何重新训练标记器?假设我希望将上述字符串作为 this_DT is_VBZ a_DT test_VB 返回?

感谢这里的任何答案。

4

1 回答 1

0

除非您有一个 POS 标记语料库,其中包含许多您希望纠正的现象/现象示例,否则您可能无法重新训练标记器模型。澄清一下,根据我对斯坦福工具进行培训的期望,没有机制可以添加单个示例来更改模型。您将需要拥有完整的语料库并重新进行重新训练。

如果您确实有语料库,那么我会参考之前发布的这个问题,以获取有关文件格式的详细信息以及训练斯坦福 CoreNLP 模型的正确步骤。

否则,最好的办法是编写一些覆盖行为的后处理规则/正则表达式模式。此类规则的用途是确保单词列表中的人和地点被标记为专有名词 (NNP)。

祝你好运!

于 2013-10-07T18:42:36.723 回答