我正在处理一个不平衡的数据集,并尝试使用验证指标来处理它。在 scikit 文档中,我发现以下内容weighted
:
计算每个标签的指标,并通过支持度(每个标签的真实实例数)找到它们的平均加权值。这会改变“宏观”以解决标签不平衡问题;它可能导致 F 分数不在精确率和召回率之间。
计算按支持度加权的平均值是否意味着具有更多样本的类的权重高于具有较少样本的类,或者看起来更合乎逻辑的是,较小的类的权重高于较大的类。
我在文档中找不到任何内容,并想确保我选择了正确的指标。
谢谢!
我正在处理一个不平衡的数据集,并尝试使用验证指标来处理它。在 scikit 文档中,我发现以下内容weighted
:
计算每个标签的指标,并通过支持度(每个标签的真实实例数)找到它们的平均加权值。这会改变“宏观”以解决标签不平衡问题;它可能导致 F 分数不在精确率和召回率之间。
计算按支持度加权的平均值是否意味着具有更多样本的类的权重高于具有较少样本的类,或者看起来更合乎逻辑的是,较小的类的权重高于较大的类。
我在文档中找不到任何内容,并想确保我选择了正确的指标。
谢谢!