我正在使用 apache mahout 在客户支持域中执行情绪分析。由于我无法获得适当的训练数据集,所以我自己制作了。现在我有 100 封正面情绪的支持邮件和 100 封负面情绪的支持邮件。
但问题是,我无法达到准确性。它保持在 55% 左右,这是可悲的。大约 70% 左右的准确度将是令人满意的。还要注意,我使用的是免费的 apache mahout 朴素贝叶斯分类器。
准确地说,是较小的数据集大小降低了准确性吗?如果没有,我应该在哪里调整?
我正在使用 apache mahout 在客户支持域中执行情绪分析。由于我无法获得适当的训练数据集,所以我自己制作了。现在我有 100 封正面情绪的支持邮件和 100 封负面情绪的支持邮件。
但问题是,我无法达到准确性。它保持在 55% 左右,这是可悲的。大约 70% 左右的准确度将是令人满意的。还要注意,我使用的是免费的 apache mahout 朴素贝叶斯分类器。
准确地说,是较小的数据集大小降低了准确性吗?如果没有,我应该在哪里调整?