java - 合并两个具有不同但重叠模式和不同实例数量的稀疏 weka 数据集

Question

我需要使用 SparseInstance 对象迭代地扩展 weka ARFF 文件。每次添加新的 SparseInstance 时，标头可能会更改，因为新实例可能会添加其他属性。我认为 mergeInstances 方法可以解决我的问题，但事实并非如此。它要求两个数据集都没有共享属性。

如果这不是绝对清楚，请查看以下示例：

Dataset1
a b c
1 2 3
4 5 6

Dataset2
c d
7 8

Merged result:
a b c d
1 2 3 ?
4 5 6 ?
? ? 7 8

我目前看到的唯一解决方案是手动解析 arff 文件并使用字符串处理将其合并。有谁知道更好的解决方案？

score 3 · Accepted Answer

行。我自己找到了解决方案。解决方案的核心部分是方法Instances#insertAttributeAt，如果第二个参数是，则插入一个新属性作为最后一个属性model.numAttributes()。这是数字属性的一些示例代码。也很容易适应其他类型的属性：

    Map<String,String> currentInstanceFeatures = currentInstance.getFeatures();
    Instances model = null;
    try {
        if (targetFile.exists()) {
            FileReader in = new FileReader(targetFile);
            try {
                BufferedReader reader = new BufferedReader(in);
                ArffReader arff = new ArffReader(reader);
                model = arff.getData();
            } finally {
                IOUtils.closeQuietly(in);
            }
        } else {
            FastVector schema = new FastVector();
            model = new Instances("model", schema, 1);
        }
        Instance newInstance = new SparseInstance(0);
        newInstance.setDataset(model);

        for(Map.Entry<String,String> feature:currentInstanceFeatures.entrySet()) {
            Attribute attribute = model.attribute(feature.getKey());
                if (attribute == null) {
                    attribute = new Attribute(feature.getKey());
                    model.insertAttributeAt(attribute, model.numAttributes());
                    attribute = model.attribute(feature.getKey());
                }
            newInstance.setValue(attribute, feature.getValue());
        }

        model.add(newInstance);
        model.compactify();
        ArffSaver saver = new ArffSaver();
        saver.setInstances(model);
        saver.setFile(targetFile);
        LOGGER.debug("Saving dataset to: " + targetFile.getAbsoluteFile());
        saver.writeBatch();
    } catch (IOException e) {
        throw new IllegalArgumentException(e);
    }

java - 合并两个具有不同但重叠模式和不同实例数量的稀疏 weka 数据集

1 回答 1

Related

Reference