2

我想创建一个应用程序,该应用程序可以通过读取两个文档中的文本并比较它们来确定是否在两个文档之间复制了某些文本。我想知道是否有人曾经尝试过这样做,以及处理相同问题的最佳方法是什么。如果涉及机器学习和自然语言处理:达到什么水平?

4

2 回答 2

1

有些技术完全依赖于集合论概念

尝试http://en.wikipedia.org/wiki/W-shingling 以获得良好的开端。

于 2012-05-12T20:06:29.340 回答
0

我相信Copyscape使用4-gram来帮助确定唯一性。

这些字符串称为N-Grams

但是,另一个与语言无关的算法相关的SO 答案在字符的基础上比较二元组。它已经在 J​​ava 中实现,这将有助于节省时间。

于 2012-05-12T21:28:25.597 回答