我一直在研究基于 MOSS(软件相似度测量)背后的学术论文的抄袭检测引擎的实现
链接到MOSS
为了为 C/C++/Java 等语言设计噪声过滤器,我需要做出一些决定。
关键字是否与检测剽窃相关或应该被删除?相同语言的源文件必须共享相同的关键字集。论文没有讨论如何处理它们。
如何处理标识符?用单个字符“V”替换所有关键字,使匹配独立于变量名是有意义的。
如何处理包导入和库包含?
空格、注释和标点符号一定要去掉。
我想知道在完成所有操作后,源文件将只是一堆“V”和其他一些乱码。
噪声滤波器应该执行哪些操作?
关于处理噪音的最佳方法的见解和意见?