我在 CSV 中有一个数据集,它是一组键值对,数据集很大,值是整数和短字符串的混合(即不是冗长的文本,而是关键词),我想使用它来处理它Mahout 的聚类算法。
问题在于将此 CSV 转换为 Mahout 可以使用的向量。我一直在阅读“Mahout In Action”,似乎有两个矢量化选项,使用带有 Mahout 的 DenseVector、RandomAccessSparseVector 和 SequentialAccessSparseVector 实现的数值或使用矢量空间模型来矢量化文本文档。
我想要对其进行矢量化的数据并不是真正的文本文档,但由于它是一个包含许多不同键和值的庞大数据集,因此很难将其映射到数值。将此类数据矢量化以在 Mahout 中使用的最佳方法是什么?
任何指针将不胜感激。
谢谢