1

我有大约 400 万条文本要使用斯坦福 POS 标注器进行注释。如何禁用这些日志记录消息:

Reading POS tagger model from edu/stanford/nlp/models/pos-tagger/english-left3words/english-left3words-distsim.tagger ... done [1,1 sec].

我的日志文件中不需要 400 万个。

4

2 回答 2

1

StanfordNLPRedwood用作日志记录框架。您必须在初始化 StanfordNLP 管道之前禁用它。

import edu.stanford.nlp.util.logging.RedwoodConfiguration;
RedwoodConfiguration.current().clear().apply();
StanfordCoreNLP pipeline = new StanfordCoreNLP(props);

这个对我有用。在运行程序时,它不会在每一行中显示冗长的 INFO 消息。

参考: RedwoodConfiguratin 教程

希望能帮助到你!

于 2017-05-19T08:25:34.007 回答
0

您能否向我提供有关您如何使用斯坦福 CoreNLP 的更多详细信息?看起来您正在为您不必执行的每个文档加载 POS 标记器。因此,您可以加载一次 POS 标记器(如果您有集群,则为每个工作人员),然后重新使用已加载的标记器浏览文档。这也将加快您的处理速度!

于 2015-09-12T04:36:48.813 回答