我正在尝试对抄袭进行一些算法比较。我发现了很多抄袭的文本比较。
但是在算法中它是非常不同的。假设某个算法使用了大量的变量、函数和用户定义的结构。如果有人从某人那里复制源代码,他至少会更改变量和函数名称。使用简单的文本比较算法,函数和变量字母的这种差异将被视为“差异”,从而使算法给出剽窃的“错误”。
我想要做的是“概括”(我不知道这是否正确)C++ 源代码中的所有变量、函数和用户定义的结构名称。所以变量将被命名为“a”、“b”,对于函数“... fa(...)”、“... fb(...)”也是如此。我在 PHP 中的字符串变量中有 c++ 源算法进行比较。
我知道应该分析许多其他事情以进行准确的源代码比较,但这对我来说已经足够了。