余弦相似度的输入是两个向量,代表我要比较的两个不同数据。对向量的语义有要求吗?它可以简单地是每个文件的字节表示。然后计算每个字节的频率?这有意义吗?或者应该有一个文件的矢量化,其中每个维度不是来自文件的原始数据,而是一些元数据作为每个术语的频率,如果我们为文本文件或 tf-idf 编码模型说话?换一种说法:为了“正确”,余弦相似度是否要求对数据进行复杂的预处理步骤,或者我可以将其作为输入整数值给出,代表我的数据的每个字节,而不考虑文本或只是频率每个字节的术语?
问问题
660 次