我计划在书籍语料库上执行我的 NLP 管道。由于解决共同引用是一个密集的过程,我将无法一次处理整本书甚至整章。我正计划将文本分成相当大的块来解决共指问题。
我需要帮助的问题是,Group2
当他们引用的名词位于Group1
. 有没有办法将依赖项从Group1
以下组播种?如果不是,通常如何处理?
对于它的价值,我正在使用 CoreNLP,但我对其他人持开放态度。
“第一组”:乔治出生在纽约。乔治 10 岁。
“第二组”:他喜欢纽约市。
我计划在书籍语料库上执行我的 NLP 管道。由于解决共同引用是一个密集的过程,我将无法一次处理整本书甚至整章。我正计划将文本分成相当大的块来解决共指问题。
我需要帮助的问题是,Group2
当他们引用的名词位于Group1
. 有没有办法将依赖项从Group1
以下组播种?如果不是,通常如何处理?
对于它的价值,我正在使用 CoreNLP,但我对其他人持开放态度。
“第一组”:乔治出生在纽约。乔治 10 岁。
“第二组”:他喜欢纽约市。
这可能很有趣:https ://stanfordnlp.github.io/CoreNLP/memory-time.html 在这里https://stanfordnlp.github.io/CoreNLP/coref.html他们提到了 maxMentionDistance 设置。我记得当我使用 coreNLP 进行 coref 解析时,我曾修改过它。(但直接在 Java 中;因为您已经用 NLTK 标记了您的问题;不确定在 NLTK 实现中是否也可以进行设置)
我会在这里使用常识并尝试尽可能地坚持概念块,即如果章节太大,请尝试(几个)段落。也许您可以在后处理中将提及链“粘合”在一起,但我想这不会立即简单。