2

我正在使用朴素贝叶斯分类器对客户支持进行情绪分析。但不幸的是,我在客户支持领域没有大量带注释的数据集。但是我在同一个域中有少量注释数据(大约 100 个正数和 100 个负数)。我也有亚马逊产品评论数据集。

无论如何,我是否可以使用 mahout 实现加权的朴素贝叶斯分类器,这样我就可以对一小部分客户支持数据给予更大的权重,对亚马逊产品评论数据给予更小的权重。我猜对上述加权数据集的训练将大大提高准确性。请帮助我。

4

1 回答 1

1

一种非常简单的方法是过采样。即多次重复训练数据中的客户支持示例。

虽然这不是同一个问题,但通过研究用于类不平衡的方法,您可能会得到一些进一步的想法;特别是过采样(如前所述)和欠采样。

于 2011-12-28T07:11:11.890 回答