nlp - 斯坦福词性标注器无法在预标记文本中标注括号和引号

问问题 2015-08-11T02:39:42.353

167 次

我有一个预先标记的文本作为斯坦福词性标注器的输入。它根本无法正确标记括号和引号。我不想要 Stanford Tagger 的默认标记，所以我禁用了它，使用-tokenize falseoption。

我知道我们应该在标记化过程中采用这种escape characters方式Penn Treebank，例如将括号变成-LRB-and -RRB-，这在独立的 Stanford Parser中受支持。

有没有办法在斯坦福的词性标注器中很好地处理它？

0 回答 0