java - 调整 StanfordCoreNLP 来处理嘈杂的网络文本？

Question

我一直在网站上手动尝试 StanfordCoreNLP NER 和所有内容，例如，它们似乎依赖于非常具体/正确的英语提示来检测实体。但是，在处理网络文本时，您可能会有一些文本，例如

约翰·多伊

计算机科学助理教授

斯坦福大学

StanfordNLP 似乎遇到了一些麻烦（由于缺少介词/标点符号，将整个事物标记为一个组织）。我可以做些什么来让 NER 更好地处理这种文本（例如，对文本进行一些预处理）？

score 0 · Accepted Answer

在每行的末尾添加点（。）可以得到更好的结果。（由于句子分割器使用点作为分隔符）

1 回答 1