我收集了 20,000 篇大师文章,我每天会收到大约 400,000 篇一两页的文章。现在,我想看看这 40 万篇文章中的每一篇是否都是我的大师文章集的副本或修改版本(抄袭率超过 60% 的阈值对我来说没问题)我应该使用哪些算法和技术来解决以非常有效和及时的方式解决问题。谢谢
问问题
191 次
我收集了 20,000 篇大师文章,我每天会收到大约 400,000 篇一两页的文章。现在,我想看看这 40 万篇文章中的每一篇是否都是我的大师文章集的副本或修改版本(抄袭率超过 60% 的阈值对我来说没问题)我应该使用哪些算法和技术来解决以非常有效和及时的方式解决问题。谢谢