2

我正在尝试重现arimo.com中显示的问题

这是一个如何为硬盘故障构建预防性维护机器学习模型的示例。我真的不明白的部分是如何将贝叶斯优化与自定义目标函数和逻辑回归与梯度下降一起使用。要优化的超参数是什么?问题的流程是什么?

如我们上一篇文章所述,贝叶斯优化 [6] 用于找到最佳超参数值。在超参数调整中要优化的目标函数是在验证集上测量的以下分数:

S = alpha * fnr + (1 – alpha) * fpr

其中 fpr 和 fnr 是在验证集上获得的假阳性率和假阴性率。我们的目标是保持低误报率,因此我们使用 alpha = 0.2。由于验证集高度不平衡,我们发现 Precision、F1-score 等标准分数效果不佳。事实上,使用这个自定义分数对于模型通常获得良好的性能至关重要。

请注意,我们仅在运行贝叶斯优化时使用上述分数。为了训练逻辑回归模型,我们使用带有通常脊损失函数的梯度下降。

我在功能选择之前的数据框:

index   date    serial_number   model   capacity_bytes  failure     Read Error Rate     Reallocated Sectors Count   Power-On Hours (POH)    Temperature     Current Pending Sector Count    age     yesterday_temperature   yesterday_age   yesterday_reallocated_sectors_count     yesterday_read_error_rate   yesterday_current_pending_sector_count  yesterday_power_on_hours    tomorrow_failure
0   77947   2013-04-11  MJ0331YNG69A0A  Hitachi HDS5C3030ALA630     3000592982016   0   0   0   4909    29  0   36348284.0  29.0    20799895.0  0.0     0.0     0.0     4885.0  0.0
1   79327   2013-04-11  MJ1311YNG7EWXA  Hitachi HDS5C3030ALA630     3000592982016   0   0   0   8831    24  0   36829839.0  24.0    21280074.0  0.0     0.0     0.0     8807.0  0.0
2   79592   2013-04-11  MJ1311YNG2ZD9A  Hitachi HDS5C3030ALA630     3000592982016   0   0   0   13732   26  0   36924206.0  26.0    21374176.0  0.0     0.0     0.0     13708.0     0.0
3   80715   2013-04-11  MJ1311YNG2ZDBA  Hitachi HDS5C3030ALA630     3000592982016   0   0   0   12745   27  0   37313742.0  27.0    21762591.0  0.0     0.0     0.0     12721.0     0.0
4   79958   2013-04-11  MJ1323YNG1EK0C  Hitachi HDS5C3030ALA630     3000592982016   0   524289  0   13922   27  0   37050016.0  27.0    21499620.0  0.0     0.0     0.0     13898.0     0.0
4

0 回答 0