在官方文档中:
在分类问题中,误报的成本几乎永远不会与误报的成本相同。因此,如果您正在优化类型 1 和类型 2 错误具有不同影响的业务问题,您可以通过定义真阳性、真阴性、假阳性的成本来优化您的分类器以获得概率阈值以优化自定义损失函数和假阴性分开。
optimize_threshold(xgboost, true_negative = 1500, false_negative = -5000)
如何设置模型的成本分别需要高精度(例如,推荐引擎、垃圾邮件检测..)或高召回率(例如,预测癌症或预测恐怖分子)分数?负号是否意味着惩罚?