3

我面临一个文本分类问题,我需要将示例分类为 34 组。

问题是,34 组的训练数据量不均衡。对于某些组,我有 2000 多个示例,而对于某些组,我只有 100 多个示例。

对于一些小群体,分类准确率相当高。我猜这些群体可能有特定的关键词来识别和分类。而对于某些人来说,准确性很低,而且预测总是针对大群体。

我想知道如何处理“低频示例问题”。简单地复制和复制小组数据是否可行?或者我需要选择训练数据并扩展和平衡数据大小?有什么建议么?

4

1 回答 1

4

正则化有时可以通过减少虚假相关的影响来帮助不平衡的类问题,但这取决于您的数据。一种解决方案是简单地对较小的类进行过度采样,或者增加较小类中数据点的权重,以迫使分类器更加关注它。

您可以通过搜索“类不平衡”问题找到更高级的技术。虽然没有多少它们被应用/创建用于文本分类问题,但在处理文本问题时拥有​​大量数据是很常见的。所以我不确定有多少在如此高的维度空间中工作得很好。

于 2013-07-12T18:01:02.190 回答