2

我的算法为给定的氨基酸序列预测了几个可测量的特性。现在给出一个包含真实测量值和我的值的表格,我如何计算我的算法的执行情况?

例子:

Sequence Property1 Prediction1 
seq1     3l.4      35.0         |Prediction matches well
seq2     23.4      79.9         |Prediction was off
seq3     20.0      20.3         |Prediction as super

==> 算法表现不错。

有没有办法量化这个?

4

2 回答 2

2

是的,创建一个质量指数。

最简单的方法是最小二乘法——计算结果与测量值之间的差异,将其平方,然后对平方求和。除以值的数量。然后的平方根为您提供标准误差范数。

但是,这假设为所有测量获得正确答案同样重要。如果有些比其他更重要,那么您应该在总和中权衡它们。

试着问自己一个问题,什么会比你上面的答案糟糕一倍。将所有错误翻倍?

于 2012-04-24T08:41:58.510 回答
0

如果只是弄清楚两个值(Property1vs Prediction1)的接近程度,您可以执行以下操作:

Sequence Property1 Prediction1 Diff
seq1     3l.4      35.0         3.6  | Prediction matches well
seq2     23.4      79.9        56.5  | Prediction was off
seq3     20.0      20.3         0.3  | Prediction as super

并根据列决定在该行上放置什么“等级” Diff

在代码中,它看起来像:

diff = abs(Property1 - Prediction1)

if (diff < 1.0)        Prediction was super
else if (diff < 5.0)   Prediction matches well
else if (diff < ...)   ...
else                   Prediction was off

如果您有完整的值序列(例如完整的diff值列),并且您想查看整个预测是否匹配良好,那么您可以计算这些值的标准偏差。之后,只需量化您愿意接受的偏差有多大。

于 2012-04-24T08:38:24.693 回答