mahout - 聚类——稀疏向量和密集向量

Question

对于聚类，Mahout 输入需要采用向量形式。有两种类型的向量实现。一个是稀疏向量，另一个是密集向量。

两者有什么区别？

稀疏和密集的使用场景？

score 19 · Accepted Answer

从概念上讲，稀疏向量中的大多数值都是零，而在密集向量中则不是。对于密集和稀疏矩阵也是如此。术语稀疏和密集通常描述这些属性，不仅在 Mahout 中。

在 Mahout 中，DenseVector假设没有太多的零条目，因此“将向量实现为双精度数组”（org.apache.mahout.math.DenseVector）。相反，的稀疏向量实现AbstractVector，例如RandomAccessSparseVector和SequentialAccessSparseVector，使用完全不存储零值的不同数据结构。

取哪一个取决于您要存储在向量中的数据。如果您期望大部分为零值，那么稀疏向量实现会更节省空间，但是如果您将它用于只有几个零值的数据，则会引入大量数据结构开销，这可能会导致性能下降。

密集向量与稀疏向量的选择不会影响您对向量的计算结果，只会影响内存使用量和计算速度。

mahout - 聚类——稀疏向量和密集向量

1 回答 1

Related

Reference