8

想象一下,我有一个存储一系列稀疏向量的表。稀疏向量意味着它仅在数据结构中显式存储非零值。我可以有一个 100 万维向量,但我只存储非零维度的值。所以大小与非零条目的数量成正比,而不是与向量的维数成正比。

表定义是这样的:vector_id : int dimension : int value : float

现在,在普通编程领域,我可以在 O(|v1| + |v2|) 时间内计算两个向量的内积或点积。基本上,该算法是存储按维度排序的稀疏向量并遍历每个维度中的维度,直到找到维度之间的冲突并将共享维度的值相乘并继续将它们相加,直到到达任一向量的末尾.

在 SQL 中实现这一目标的最快方法是什么?

4

1 回答 1

5

您应该能够在一个查询中复制此算法:

select sum(v1.value * v2.value)
from vectors v1
inner join vectors v2
on v1.dimension = v2.dimension
where v1.vector_id = ...
and v2.vector_id = ...
于 2009-06-29T20:52:35.660 回答