1

我已经参考了这两个链接来运行 mahout NB 分类器

[1] http://tharindu-rusira.blogspot.com/2014/01/naive-bayes-classification-apache-mahout.html
[2] http://chimpler.wordpress.com/2013/03/13/using -the-mahout-naive-bayes-classifier-to-automatically-classify-twitter-messages/

我想使用我自己的测试集,而不是让 mahout 将我的数据分成训练集和测试集 (80:20)。我怎样才能做到这一点?

4

1 回答 1

2

取两个数据集用于训练和一个用于测试。

在两组上运行以下命令:
1. seqdirectory
2. seq2sparse

现在,您将为两个数据集生成向量。
- 使用第一个数据集的向量输出运行 trainnb 命令。因此,我们不是在 80% 的数据上训练模型,而是使用整个数据集。
- 使用第二个数据集的向量输出运行 testnb 命令。这不是 20% 的数据,它是全新的数据集,仅用于测试。

因此,我们没有使用 mahout 拆分,而是指定了自己的数据集来测试您的模型。

于 2014-11-17T16:09:16.623 回答