similarity - 余弦相似度的预处理要求是什么？

Question

余弦相似度的输入是两个向量，代表我要比较的两个不同数据。对向量的语义有要求吗？它可以简单地是每个文件的字节表示。然后计算每个字节的频率？这有意义吗？或者应该有一个文件的矢量化，其中每个维度不是来自文件的原始数据，而是一些元数据作为每个术语的频率，如果我们为文本文件或 tf-idf 编码模型说话？换一种说法：为了“正确”，余弦相似度是否要求对数据进行复杂的预处理步骤，或者我可以将其作为输入整数值给出，代表我的数据的每个字节，而不考虑文本或只是频率每个字节的术语？

score 1 · Accepted Answer

数据的“语义”至关重要。例如，假设您正在比较英文文本文档。对于大型文档，各种字母出现的频率大致相同，因此如果向量的元素表示字母的数量，您将难以区分文档。如果你的向量的元素代表字数，你会得到更好的结果。如果向量的元素代表“词干”单词的数量，那就更好了。等等。

余弦相似度是一种“愚蠢”的统计量度——由你决定是否给它一些有意义的东西来比较。

similarity - 余弦相似度的预处理要求是什么？

1 回答 1

Related

Reference