algorithm - TF-IDF如何用于编程源代码抄袭检测？

问问题 2019-02-23T22:09:14.613

201 次

我简要了解了 TF-IDF 的工作原理，用于检测文章中的抄袭，它确实有意义。

现在我被告知要对编程源代码使用它，这怎么能工作？文章中大部分单词都是自然语言单词说的英语，你可以数这些单词。现在在源代码中，每个人都可以定义各种奇怪的变量名，所以这种单词计数对我来说没有多大意义。

即使我只想计算函数名，我自己的函数名也可能很奇怪，而系统/库函数名对 TF 很有用。

任何人都可以帮助解释更多？谢谢！

0 回答 0