我正在使用 weka 工具尝试从数据集中生成一组分类规则。数据集当前是一个 .txt 文件,格式如下:
网页 attr1 attr2 attr3.....attrn 类型 尝试.html 1 2 3 .....
(每个单词用制表符分隔)
如何将其转换为适合 weka 的输入文件?我尝试将其转换为 csv 然后转换为 arff 格式,但它不起作用并不断给我 2 个错误之一header stream is invalid
或attribute names are not unique
.
ARFF 文件具有以下格式:
@RELATION aNameForTheRelation
@ATTRIBUTE attr_0 TYPE
@ATTRIBUTE attr_1 TYPE
% ... (this' a comment)
@ATTRIBUTE attr_N TYPE
@DATA
sample_0_attr_0_v,sample_0_attr_1_v,...,sample_0_attr_N_v
sample_1_attr_1_v,sample_1_attr_1_v,...,sample_1_attr_N_v
% ...
sample_M_attr_1_v,sample_M_attr_1_v,...,sample_M_attr_N_v
它基本上可以是带有标题的 CSV 文件。您是否尝试手动写入 ARFF 文件的标题并附加 CSV 文件信息?也许自动化工具未能检测到生成的 ARFF 中属性的正确命名