我简要了解了 TF-IDF 的工作原理,用于检测文章中的抄袭,它确实有意义。
现在我被告知要对编程源代码使用它,这怎么能工作?文章中大部分单词都是自然语言单词说的英语,你可以数这些单词。现在在源代码中,每个人都可以定义各种奇怪的变量名,所以这种单词计数对我来说没有多大意义。
即使我只想计算函数名,我自己的函数名也可能很奇怪,而系统/库函数名对 TF 很有用。
任何人都可以帮助解释更多?谢谢 !
我简要了解了 TF-IDF 的工作原理,用于检测文章中的抄袭,它确实有意义。
现在我被告知要对编程源代码使用它,这怎么能工作?文章中大部分单词都是自然语言单词说的英语,你可以数这些单词。现在在源代码中,每个人都可以定义各种奇怪的变量名,所以这种单词计数对我来说没有多大意义。
即使我只想计算函数名,我自己的函数名也可能很奇怪,而系统/库函数名对 TF 很有用。
任何人都可以帮助解释更多?谢谢 !