0

为什么将 LP 空间归一化用于 Mahout VectorNormMapper 以获取项目相似性。还读过 2 的范数幂对 CosineSimilarity 非常有效。

是否有直观的解释来说明为什么要使用它,以及如何为给定的相似度类确定最佳的功率值。

4

1 回答 1

1

可以为任何 L_p 度量定义向量范数。根据您正在处理的问题,不同的规范具有不同的属性。p 的常见值包括 1 和 2,偶尔使用 0。

Mahout 中的某些相似函数与特定规范密切相关。您的余弦相似度示例是一个很好的示例。余弦相似度是通过缩放两个向量输入以使 L_2 长度 = 1 然后取点积来计算的。如果向量在笛卡尔空间中表示,则该值等于向量之间夹角的余弦值。该值也是 sqrt(1-d^2),其中 d 是归一化向量之间差异的 L_2 范数。

这意味着余弦相似度和 L_2 距离之间存在密切联系。

这是否回答你的问题?

顺便说一句,这些问题可能会在 Apache Mahout 邮件列表上得到更快的回答。

于 2014-04-13T13:47:42.727 回答