algorithm - 我如何衡量我的算法的预测能力？

Question

我的算法为给定的氨基酸序列预测了几个可测量的特性。现在给出一个包含真实测量值和我的值的表格，我如何计算我的算法的执行情况？

例子：

Sequence Property1 Prediction1 
seq1     3l.4      35.0         |Prediction matches well
seq2     23.4      79.9         |Prediction was off
seq3     20.0      20.3         |Prediction as super

==> 算法表现不错。

有没有办法量化这个？

score 2 · Accepted Answer

是的，创建一个质量指数。

最简单的方法是最小二乘法——计算结果与测量值之间的差异，将其平方，然后对平方求和。除以值的数量。然后的平方根为您提供标准误差范数。

但是，这假设为所有测量获得正确答案同样重要。如果有些比其他更重要，那么您应该在总和中权衡它们。

试着问自己一个问题，什么会比你上面的答案糟糕一倍。将所有错误翻倍？

score 0 · Accepted Answer

如果只是弄清楚两个值（Property1vs Prediction1）的接近程度，您可以执行以下操作：

Sequence Property1 Prediction1 Diff
seq1     3l.4      35.0         3.6  | Prediction matches well
seq2     23.4      79.9        56.5  | Prediction was off
seq3     20.0      20.3         0.3  | Prediction as super

并根据列决定在该行上放置什么“等级” Diff。

在代码中，它看起来像：

diff = abs(Property1 - Prediction1)

if (diff < 1.0)        Prediction was super
else if (diff < 5.0)   Prediction matches well
else if (diff < ...)   ...
else                   Prediction was off

如果您有完整的值序列（例如完整的diff值列），并且您想查看整个预测是否匹配良好，那么您可以计算这些值的标准偏差。之后，只需量化您愿意接受的偏差有多大。

algorithm - 我如何衡量我的算法的预测能力？

2 回答 2

Related

Reference