0

在 Mahout 中,我们如何手动为朴素贝叶斯分类器制作训练向量和测试向量,而不是使用"--randomSelectionPct"拆分选项。根据我的理解,我手动构建了训练向量和测试向量

bin/mahout seq2sparse -i TestSet0-seq -o TestSet0-vectors
bin/mahout seq2sparse -i TrainSet0-seq -o TrainSet0-vectors


/home/marvin1/hadoop-1.0.4/bin/hadoop fs -cp /user/marvin1/TestSet0-vectors/tfidf-vectors /user/marvin1/test-vectors
/home/marvin1/hadoop-1.0.4/bin/hadoop fs -cp /user/marvin1/TrainSet0-vectors/tfidf-vectors /user/marvin1/train-vectors 

但是这个准确度只有1%。这里的数据是 90-10 手动拆分。但是当我将完整的数据(训练+测试)传递给 mahout 并使用"--randomSelectionPct 10“。然后它给出了大约 50% 的准确度。请让我知道我在这方面做错了什么。

4

1 回答 1

0

可能我回答这个问题为时已晚......但无论如何我要说的是......
你如何进行拆分很重要......我在训练期间遇到过类似的问题数据集,我使用了一部分数据,这些数据属于一个特定类别而不是另一个类别(请参阅过度拟合)。因此尝试使用一些随机方法拆分数据集,并检查结果。绝对应该改进。

于 2014-04-04T05:55:31.617 回答