如果我在 Google 新闻上搜索某些内容,我可以单击“深入探索”按钮并从多个来源获取相同的新闻文章。使用什么样的算法来比较文本文章,然后确定它是关于同一事物的?我在这里看到了这个问题:
但是,使用那里提到的方法,我觉得如果有性质相似但故事不同的文章,它们会使用那里提到的方法组合在一起。有没有一种标准的方法来检测大致相同的字符串并将它们分组,同时将相似的字符串分开?例如。如果我搜索“美国边境”,我可能会得到有关美国边境问题的故事,但是什么会阻止这些故事集中在一起呢?我能想到的只是出版日期,但如果许多故事的出版时间非常接近怎么办?