2

我正在使用 weka 工具尝试从数据集中生成一组分类规则。数据集当前是一个 .txt 文件,格式如下:

网页 attr1 attr2 attr3.....attrn 类型
尝试.html 1 2 3 .....

(每个单词用制表符分隔)

如何将其转换为适合 weka 的输入文件?我尝试将其转换为 csv 然后转换为 arff 格式,但它不起作用并不断给我 2 个错误之一header stream is invalidattribute names are not unique.

4

1 回答 1

2

ARFF 文件具有以下格式:

@RELATION aNameForTheRelation

@ATTRIBUTE attr_0 TYPE
@ATTRIBUTE attr_1 TYPE
% ... (this' a comment)
@ATTRIBUTE attr_N TYPE

@DATA
sample_0_attr_0_v,sample_0_attr_1_v,...,sample_0_attr_N_v
sample_1_attr_1_v,sample_1_attr_1_v,...,sample_1_attr_N_v
% ...
sample_M_attr_1_v,sample_M_attr_1_v,...,sample_M_attr_N_v

它基本上可以是带有标题的 CSV 文件。您是否尝试手动写入 ARFF 文件的标题并附加 CSV 文件信息?也许自动化工具未能检测到生成的 ARFF 中属性的正确命名

于 2011-04-08T04:18:41.910 回答