我将如何模拟 damerau leveshtein 距离算法以检测文档中的抄袭?谢谢!
user188881
问问题
1932 次
1 回答
3
Levenshtein 距离主要用于比较两个字符串,例如比较名称或在拼写检查器中查找替代项。对整个文档使用这种算法来检测抄袭并不典型。
不过,该地区有一些工作。一切都指向这篇文章,需要订阅:
使用 Levenshtein 距离和 Smith-Waterman 算法的抄袭检测
http://www.computer.org/portal/web/csdl/doi/10.1109/ICICIC.2008.422
文本抄袭是学术界日益关注的问题。现在,最常见的文本剽窃是通过进行各种细微的改动而发生的,包括插入、删除或替换单词。然而,这种简单的更改需要过多的字符串比较。在本文中,我们提出了一种混合抄袭检测方法。我们研究了从 Levenshtein 距离导出的对角线的使用,以及简化的 SmithWaterman 算法,该算法是识别和量化生物序列局部相似性的经典工具,以期在剽窃检测中的应用。我们的方法避免了全局涉及的字符串比较,并考虑了心理因素,这可以通过实验结果产生显着的加速。根据结果,我们使用 Levenshtein 距离和 Smith-Waterman 算法表明了这种改进的实用性,并说明了效率提升。将来,在文本比较领域探索适当的启发式方法会很有趣
于 2010-11-07T01:02:03.023 回答