0

假设您想比较学生的论文,看看其中一篇论文是否被抄袭。你会如何以一种天真的方式(即不太复杂的方法)来解决这个问题?当然,有比较简单的方法,比如比较论文中使用的单词,也有复杂的方法,比如使用压缩函数,但是还有哪些其他方法可以在没有太多复杂性/理论的情况下检查抄袭?

4

2 回答 2

2

有几篇论文给出了几种方法,我推荐阅读这篇 论文展示了一种基于索引结构的算法,该索引结构建立在整个文件集合之上。

所以他们说他们的算法可以用来在大型软件系统中找到相似的代码片段。在建立索引之前,集合中的所有文件都被标记化。这是一个简单的解析问题,可以在线性时间内解决。对于集合中的 N 个文件中的每一个,文件 F_i 的标记器的输出是 n_i 个标记的字符串。

在此处输入图像描述

是您可以阅读的其他论文

其他好的算法是一种基于骗局的算法,它包括通过比较测试文档和注册文档之间常见的一组单词来检测抄袭。与许多信息检索系统一样,我们的抄袭检测系统使用精确度和召回率指标进行评估。

于 2012-12-21T20:21:57.403 回答
1

你可以看看 Dick Grune 的相似性比较器,它声称也适用于自然语言文本(我只在软件上尝试过)。算法也被描述。(顺便说一句,我认为他的解析书非常好。)

于 2012-12-21T19:35:52.320 回答