2

我在 CSV 中有一个数据集,它是一组键值对,数据集很大,值是整数和短字符串的混合(即不是冗长的文本,而是关键词),我想使用它来处理它Mahout 的聚类算法。

问题在于将此 CSV 转换为 Mahout 可以使用的向量。我一直在阅读“Mahout In Action”,似乎有两个矢量化选项,使用带有 Mahout 的 DenseVector、RandomAccessSparseVector 和 SequentialAccessSparseVector 实现的数值或使用矢量空间模型来矢量化文本文档。

我想要对其进行矢量化的数据并不是真正的文本文档,但由于它是一个包含许多不同键和值的庞大数据集,因此很难将其映射到数值。将此类数据矢量化以在 Mahout 中使用的最佳方法是什么?

任何指针将不胜感激。

谢谢

4

1 回答 1

0

您很可能需要一个 RandomAccessSparseVector。

  • 不是 DenseVector,因为大多数可能的键都不会被表示。您将整数和字符串混合作为键,因此它是一个很大的键空间。
  • 不是 SequentialAccessSparseVector,因为在您的键空间中似乎没有自然顺序,这将使特定的访问顺序在 Mahout 中运行您的算法时更有效。

您可以轻松地尝试不同的向量表示,看看哪个可以提供最佳性能。

于 2014-11-12T16:01:37.307 回答