1

我有一个大型数据集,其表格形式的属性如下

userid movieid rating

2         34    5
4         11    3

我需要将这些值输入到 ARFF 文件的数据部分,以便使用 weka 软件进行机器学习分析。但是arff支持的正常格式如下

  5.1,3.5,1.4,0.2,Iris-setosa
   4.9,3.0,1.4,0.2,Iris-setosa
   4.7,3.2,1.3,0.2,Iris-setosa
   4.6,3.1,1.5,0.2,Iris-setosa

属性以逗号分隔。arff 是否总是需要逗号,或者可以用空格或制表符分隔它吗?

4

1 回答 1

0

数据部分的每个实例的属性值始终由逗号分隔(ARFF 开发人员版本):

每个实例都用一行表示,回车表示实例的结束。百分号 (%) 引入注释,注释一直持续到行尾。

每个实例的属性值由逗号分隔。逗号后面可以跟零个或多个空格。属性值必须按照它们在标题部分中声明的顺序出现(即,对应于第 n 个@attribute 声明的数据始终是属性的第 n 个字段)。

缺失值由单个问号表示

在类似的情况下,我发现weka-convert(一个 Python 命令行实用程序)非常有用。

于 2014-04-19T18:19:54.853 回答