我一直试图将这个数据集http://archive.ics.uci.edu/ml/datasets/Communities+and+Crime+Unnormalized
放入 Weka,但一点运气都没有。我将其转换为 CSV,然后将其加载到 Weka,然后尝试将其转换为 ARFF,但仍然给我错误"attribute names are not unique"
。
另外,我是否必须从测试数据集中传播训练数据集或将它们放在一起?
我一直试图将这个数据集http://archive.ics.uci.edu/ml/datasets/Communities+and+Crime+Unnormalized
放入 Weka,但一点运气都没有。我将其转换为 CSV,然后将其加载到 Weka,然后尝试将其转换为 ARFF,但仍然给我错误"attribute names are not unique"
。
另外,我是否必须从测试数据集中传播训练数据集或将它们放在一起?
您也可以使用 ArffViewer(工具 -> ArffViewer 或 Ctrl+A)。然后打开您的 CSV 文件。
接下来转到 File -> Save as... 并选择Arff data files(默认情况下应选中)。
请注意,您的字段必须用逗号而不是分号分隔。
WEKA 中实现了一些转换器。以下是与该主题相关的 API 页面:http ://weka.sourceforge.net/doc.stable/weka/core/converters/package-summary.html
例如,这里是如何从 CSV 转换为 ARFF:
java -cp /path/to/weka.jar weka.core.converters.CSVLoader filename.csv > filename.arff
将您的 .CSV 格式文件上传到此. 从此您的 .CSV 格式将转换为 WEKA .arff 格式。完成后,将 .arff 文件获取到 Weka 工具。现在您可以继续进行数据分析。
您需要 csv 中的标题字段。您需要在第一行的 csv 文件中添加 attr0,attr1,...,labels。
我没有遇到任何问题。好的,请执行以下操作。在您指定的网页中,
你现在可以走了。
我必须从测试数据集中分离训练数据集还是将它们放在一起?
这取决于您的分类方法。如果您选择 10 倍 CV,则将它们放在一起。如果要使用约定方法,请将它们分开。同样,这完全取决于您的方法。
将 .csv 转换为 .arff 文件格式以在 Weka 中使用。 注意: .csv 文件应该是正确的,否则它不会转换为 .arff 文件。它不应在列中包含任何空值。下载 weka 核心 jar。在 Eclipse -->Configure Build path 中,添加 weka core jar 并编写以下代码行并执行代码:
CSVToArff.java
import weka.core.Instances;
import weka.core.converters.ArffSaver;
import weka.core.converters.CSVLoader;
import java.io.File;
public class CSVToArff {
public static void main(String[] args) throws Exception {
// load CSV
CSVLoader loader = new CSVLoader();
loader.setSource(new File("Provide the input file location (.csv) "));
Instances data = loader.getDataSet();
// save ARFF
ArffSaver saver = new ArffSaver();
saver.setInstances(data);
saver.setFile(new File("Provide the output file location (.arff) ");
saver.writeBatch();
// .arff file will be created in the output location
}
}
也许这个在线 CSV 到 ARFF 转换器会有用?
有用
例如:- C:\Users\User\Desktop>java -cp "e:\data\weka-3-6-10\weka.jar;." weka.core.converters.CSVLoader data1.csv >> data1.arff 1. 转换前检查 excel 中的 csv 是否有任何单元格不正确 2. 检查属性是否正确
对于普通的 csv - 你必须根据需要添加标题行,即使是 x,y,z,...