mahout - 贝叶斯分类器的训练数据大小

Question

我正在使用 apache mahout 在客户支持域中执行情绪分析。由于我无法获得适当的训练数据集，所以我自己制作了。现在我有 100 封正面情绪的支持邮件和 100 封负面情绪的支持邮件。

但问题是，我无法达到准确性。它保持在 55% 左右，这是可悲的。大约 70% 左右的准确度将是令人满意的。还要注意，我使用的是免费的 apache mahout 朴素贝叶斯分类器。

准确地说，是较小的数据集大小降低了准确性吗？如果没有，我应该在哪里调整？

score 4 · Accepted Answer

只是为了那些将来研究这个问题的人的利益，我将分享我将分类器的准确率从 50% 调整到 78% 左右的方法

这应该会大大提高您的准确性。

1 回答 1