1

我一直在玩http://corenlp.run/并注意到它区分大小写。例如,它将“i”标记为 FW,将“I”标记为 PRP。我可以训练它忽略大小写吗?更一般地说,我如何去训练它以处理非格式正确的句子?

4

1 回答 1

2

CorenNLP 具有不区分大小写的模型,您只能将其用于英语。他们称它们为无壳模型。如果您使用 3.6.0 版,请阅读那里的警告

链接中提到的几点:

  1. 您可以修复文本中字母的大小写并使用普通模型。你可以用TrueCaseAnnotator它。
  2. 要使用 CoreNLP 训练您自己的不区分大小写的模型,您可以指定一个忽略大小写的令牌预处理器

    wordFunction = edu.stanford.nlp.process.LowercaseFunction
    
于 2017-04-21T19:23:11.607 回答