0

我正在处理一个不平衡的数据集,并尝试使用验证指标来处理它。在 scikit 文档中,我发现以下内容weighted

计算每个标签的指标,并通过支持度(每个标签的真实实例数)找到它们的平均加权值。这会改变“宏观”以解决标签不平衡问题;它可能导致 F 分数不在精确率和召回率之间。

计算按支持度加权的平均值是否意味着具有更多样本的类的权重高于具有较少样本的类,或者看起来更合乎逻辑的是,较小的类的权重高于较大的类。

我在文档中找不到任何内容,并想确保我选择了正确的指标。

谢谢!

4

1 回答 1

1

简短的回答:由支撑加权意味着支撑越高,权重越高。这意味着某个类的样本越多,其得分权重就越高

话虽如此,请注意,您并没有通过为您的指标选择另一种计算方法来“处理”类不平衡。我相信它们旨在为您提供模型性能的另一个视角。

通常,模型在多数类别上的表现要好得多。使用加权指标会过分强调这一点。但是该模型在少数类上仍然具有相同的,可能相当差的性能。如果他们碰巧是重要的人,你最终可能只是在自欺欺人。

于 2020-06-08T07:23:17.537 回答