我面临一个文本分类问题,我需要将示例分类为 34 组。
问题是,34 组的训练数据量不均衡。对于某些组,我有 2000 多个示例,而对于某些组,我只有 100 多个示例。
对于一些小群体,分类准确率相当高。我猜这些群体可能有特定的关键词来识别和分类。而对于某些人来说,准确性很低,而且预测总是针对大群体。
我想知道如何处理“低频示例问题”。简单地复制和复制小组数据是否可行?或者我需要选择训练数据并扩展和平衡数据大小?有什么建议么?
我面临一个文本分类问题,我需要将示例分类为 34 组。
问题是,34 组的训练数据量不均衡。对于某些组,我有 2000 多个示例,而对于某些组,我只有 100 多个示例。
对于一些小群体,分类准确率相当高。我猜这些群体可能有特定的关键词来识别和分类。而对于某些人来说,准确性很低,而且预测总是针对大群体。
我想知道如何处理“低频示例问题”。简单地复制和复制小组数据是否可行?或者我需要选择训练数据并扩展和平衡数据大小?有什么建议么?