我希望能够将一个段落与多个(比如数千甚至更多)不同的段落进行比较,看看这些段落的任何部分是否在第一个段落中完全使用。
想象一下,您有一个名为的段落A
,您想检查它是否包含其他数千个段落中的任何句子或句子的一部分。
我认为一种非常低效的方式,并且没有更好的答案出现在我的脑海中。我的方法是从输入段落 ( A
) 中读取前三个单词。然后,检查所有数千个文本的数据库中是否有任何精确匹配。如果有任何匹配,列出它们,然后将第四个单词添加到字符串4-word
中,并从匹配列表中找到与字符串匹配的字符串3-word
。执行此操作,直到字符串不再匹配为止n-word
。的列表(n-1)-word
将作为此运行的结果保存。接下来,新的3-word
字符串将是nth
,单词(n+1)th
和(n+2)th
一切都重新开始,直到文档结束。
对于大型输入文本和大型比较文本数据库,这将是非常低效的。有更好的算法吗?