2

我有一个预先标记的文本作为斯坦福词性标注器的输入。它根本无法正确标记括号和引号。我不想要 Stanford Tagger 的默认标记,所以我禁用了它,使用-tokenize falseoption。

我知道我们应该在标记化过程中采用这种escape characters方式Penn Treebank,例如将括号变成-LRB-and -RRB-,这在独立的 Stanford Parser中受支持。

有没有办法在斯坦福的词性标注器中很好地处理它?

4

0 回答 0