1

我正在使用 apache mahout 在客户支持域中执行情绪分析。由于我无法获得适当的训练数据集,所以我自己制作了。现在我有 100 封正面情绪的支持邮件和 100 封负面情绪的支持邮件。

但问题是,我无法达到准确性。它保持在 55% 左右,这是可悲的。大约 70% 左右的准确度将是令人满意的。还要注意,我使用的是免费的 apache mahout 朴素贝叶斯分类器。

准确地说,是较小的数据集大小降低了准确性吗?如果没有,我应该在哪里调整?

4

1 回答 1

4

只是为了那些将来研究这个问题的人的利益,我将分享我将分类器的准确率从 50% 调整到 78% 左右的方法

  • 对训练和输入数据执行词干提取
  • 对训练和输入数据执行停用词删除
  • 将训练和输入数据转换为小写(或大写)
  • 在每个类别的训练数据中拥有几乎相等数量的样本
  • 根据您的域微调 ngram 级别。

这应该会大大提高您的准确性。

于 2012-02-17T09:54:22.207 回答