我正在尝试重现arimo.com中显示的问题
这是一个如何为硬盘故障构建预防性维护机器学习模型的示例。我真的不明白的部分是如何将贝叶斯优化与自定义目标函数和逻辑回归与梯度下降一起使用。要优化的超参数是什么?问题的流程是什么?
如我们上一篇文章所述,贝叶斯优化 [6] 用于找到最佳超参数值。在超参数调整中要优化的目标函数是在验证集上测量的以下分数:
S = alpha * fnr + (1 – alpha) * fpr
其中 fpr 和 fnr 是在验证集上获得的假阳性率和假阴性率。我们的目标是保持低误报率,因此我们使用 alpha = 0.2。由于验证集高度不平衡,我们发现 Precision、F1-score 等标准分数效果不佳。事实上,使用这个自定义分数对于模型通常获得良好的性能至关重要。
请注意,我们仅在运行贝叶斯优化时使用上述分数。为了训练逻辑回归模型,我们使用带有通常脊损失函数的梯度下降。
我在功能选择之前的数据框:
index date serial_number model capacity_bytes failure Read Error Rate Reallocated Sectors Count Power-On Hours (POH) Temperature Current Pending Sector Count age yesterday_temperature yesterday_age yesterday_reallocated_sectors_count yesterday_read_error_rate yesterday_current_pending_sector_count yesterday_power_on_hours tomorrow_failure
0 77947 2013-04-11 MJ0331YNG69A0A Hitachi HDS5C3030ALA630 3000592982016 0 0 0 4909 29 0 36348284.0 29.0 20799895.0 0.0 0.0 0.0 4885.0 0.0
1 79327 2013-04-11 MJ1311YNG7EWXA Hitachi HDS5C3030ALA630 3000592982016 0 0 0 8831 24 0 36829839.0 24.0 21280074.0 0.0 0.0 0.0 8807.0 0.0
2 79592 2013-04-11 MJ1311YNG2ZD9A Hitachi HDS5C3030ALA630 3000592982016 0 0 0 13732 26 0 36924206.0 26.0 21374176.0 0.0 0.0 0.0 13708.0 0.0
3 80715 2013-04-11 MJ1311YNG2ZDBA Hitachi HDS5C3030ALA630 3000592982016 0 0 0 12745 27 0 37313742.0 27.0 21762591.0 0.0 0.0 0.0 12721.0 0.0
4 79958 2013-04-11 MJ1323YNG1EK0C Hitachi HDS5C3030ALA630 3000592982016 0 524289 0 13922 27 0 37050016.0 27.0 21499620.0 0.0 0.0 0.0 13898.0 0.0