我有一个预先标记的文本作为斯坦福词性标注器的输入。它根本无法正确标记括号和引号。我不想要 Stanford Tagger 的默认标记,所以我禁用了它,使用-tokenize false
option。
我知道我们应该在标记化过程中采用这种escape characters
方式Penn Treebank
,例如将括号变成-LRB-
and -RRB-
,这在独立的 Stanford Parser中受支持。
有没有办法在斯坦福的词性标注器中很好地处理它?
我有一个预先标记的文本作为斯坦福词性标注器的输入。它根本无法正确标记括号和引号。我不想要 Stanford Tagger 的默认标记,所以我禁用了它,使用-tokenize false
option。
我知道我们应该在标记化过程中采用这种escape characters
方式Penn Treebank
,例如将括号变成-LRB-
and -RRB-
,这在独立的 Stanford Parser中受支持。
有没有办法在斯坦福的词性标注器中很好地处理它?