0

我有一些评论,我想将它们分类为正面或负面。到目前为止,我有一个带注释的数据集。

问题是前 100 行被归类为正数,其余 100 行被归类为负数。

我正在使用 SQL Server Analysis-2008 R2。Class 属性有 2 个值,POS 表示正数,NEG 表示负数。

我也使用最大输入/输出属性= 0(想使用所有属性)的朴素贝叶斯算法进行分类,测试集最大案例设置为30%。提升图表的当前分数是 0.60。

我是否必须将它们混合在一起,例如 2 个 POS 后跟 1 个 NEG,以获得更好的分类精度?

4

1 回答 1

0

学习实例的顺序不应影响分类性能。朴素贝叶斯计算的概率对于数据集中实例的任何排序都是相同的。

但是,不同测试集和训练集的选择会影响分类性能。例如,某些实例可能天生就比其他实例更难分类。

您是否得到同样糟糕的培训和测试表现?如果你的训练表现好和/或比你的测试表现好得多,你的模型可能是过拟合的。否则,如果您的训练表现也很差,我建议(a)尝试更好/更强/更具表现力的分类器,例如 SVM、决策树等;和/或 (b) 确保您的特征对数据具有足够的代表性/表现力。

于 2013-08-21T22:12:04.123 回答