java - 无法上传 CSV 文件进行 WEKA 分析 - java

Question

我正在做一个大数据分析项目，我被困在这一点上，我正在尝试上传一个包含数据的 CSV 文件，并希望使用 WEKA java API 来执行分析。我正在寻找对文本进行标记，删除停用词，识别 pos 并过滤名词我不知道为什么我会看到这个错误。对此的解释和解决方案会很棒！但我看到以下错误

Error: 

   Exception in thread "main" java.io.IOException: wrong number of values. Read 21, expected 20, read Token[EOL], line 3
     at weka.core.converters.ConverterUtils.errms(ConverterUtils.java:912)
     at weka.core.converters.CSVLoader.getInstance(CSVLoader.java:819)
     at weka.core.converters.CSVLoader.getDataSet(CSVLoader.java:642)

代码：

CSVLoader loader = new CSVLoader();
loader.setSource(new File("C:\\fakepath\\CSVfilesample.csv"));
Instances data = loader.getDataSet();

// save ARFF
ArffSaver saver = new ArffSaver();
saver.setInstances(data);
saver.setFile(new File("C:\\fakepath\\CSVfilesample.arff"));
saver.setDestination(new File("C:\\fakepath\\CSVfilesample.arff"));
saver.writeBatch();

BufferedReader br=null;
br=new BufferedReader(new FileReader("C:\\fakepath\\CSVfilesample.arff"));
Instances train=new Instances(br);
train.setClassIndex(train.numAttributes()-1);
br.close();
NaiveBayes nb=new NaiveBayes();
nb.buildClassifier(train);
Evaluation eval=new Evaluation(train);
eval.crossValidateModel(nb, train, 10, new Random(1));
System.out.println(eval.toSummaryString("\nResults\n=====\n",true));
System.out.println(eval.fMeasure(1)+" "+eval.precision(1)+" "+eval.recall(1));

score 7 · Accepted Answer

此错误通常是由于加载某个ARFF文件时格式不正确引起的。有几个原因。检查以下几点：

习惯使用ARFF格式而不是 CSV，因为它比 CSV 文件具有某些优势。检查我可以使用 CSV 吗？
现在对于另一部分，检查文件的编码是否为 UTF-8。如果是，则必须使用 UTF 8 格式解码文件。参考：使用 WEKA 进行文本分类
第三检查您的 CSV 中是否有一些不兼容的字符。像一个%2或类似的东西。检查语法错误的结尾。检查是否有多余的逗号。

此错误告诉您文件内容有问题。他们不遵循 WEKA 标准格式。修复它，错误将消失。

希望能帮助到你。:)

java - 无法上传 CSV 文件进行 WEKA 分析 - java

1 回答 1

Related

Reference