0

我有想要使用 Weka 进行聚类的高维(200 维)向量。我应该如何以 ARFF 格式表示它?

数据是这样的(dim1、dim2 等是实数):

矢量标签 dim1 dim2 dim3 ...... dim200

此处的链接 - http://weka.wikispaces.com/ARFF+%28stable+version%29告诉我,我应该将其表示如下:

@RELATION vectors
@ATTRIBUTE vector_label STRING
@ATTRIBUTE dim1 NUMERIC
@ATTRIBUTE dim2 NUMERIC
@ATTRIBUTE dim3 NUMERIC
....
@ATTRIBUTE dim200 NUMERIC

@DATA
vector1,0.1,0.2,-2.1, ...... ,-0.1

等等。

这个对吗?我问的原因是链接并没有真正清楚地说明关于高维向量的任何内容,但我觉得可能有更好的方式来表示它们,我不知道。

4

2 回答 2

1

这种表述是正确的。当您有更多或更少的维度时,ARFF 表示没有特别的区别。

但是,如果向量是稀疏的(大多数向量中的大多数维度值为零,则您可能希望使用稀疏 ARFF表示,它更紧凑并节省磁盘空间和内存。

于 2014-04-28T08:08:04.307 回答
1

如果您的数据不稀疏,则您的示例正确。如果您的数据是稀疏的,请使用稀疏 arff 文件格式。一个例子可以在这里找到

于 2014-04-28T08:32:13.657 回答