1

我计划在书籍语料库上执行我的 NLP 管道。由于解决共同引用是一个密集的过程,我将无法一次处理整本书甚至整章。我正计划将文本分成相当大的块来解决共指问题。

我需要帮助的问题是,Group2当他们引用的名词位于Group1. 有没有办法将依赖项从Group1以下组播种?如果不是,通常如何处理?

对于它的价值,我正在使用 CoreNLP,但我对其他人持开放态度。

“第一组”:乔治出生在纽约。乔治 10 岁。

“第二组”:他喜欢纽约市。

4

1 回答 1

1

这可能很有趣:https ://stanfordnlp.github.io/CoreNLP/memory-time.html 在这里https://stanfordnlp.github.io/CoreNLP/coref.html他们提到了 maxMentionDistance 设置。我记得当我使用 coreNLP 进行 coref 解析时,我曾修改过它。(但直接在 Java 中;因为您已经用 NLTK 标记了您的问题;不确定在 NLTK 实现中是否也可以进行设置)

我会在这里使用常识并尝试尽可能地坚持概念块,即如果章节太大,请尝试(几个)段落。也许您可以在后处理中将提及链“粘合”在一起,但我想这不会立即简单。

于 2018-05-31T09:41:00.037 回答