-1

我收集了 20,000 篇大师文章,我每天会收到大约 400,000 篇一两页的文章。现在,我想看看这 40 万篇文章中的每一篇是否都是我的大师文章集的副本或修改版本(抄袭率超过 60% 的阈值对我来说没问题)我应该使用哪些算法和技术来解决以非常有效和及时的方式解决问题。谢谢

4

1 回答 1

1

对文章进行指纹识别(即根据词频对其进行智能哈希),然后寻找指纹之间的统计联系。然后,如果对某些数据集有预感,请强力搜索这些数据集上的匹配字符串。

于 2013-12-23T14:12:57.410 回答