performance - 假设检验以确定平均值是否更大

Question

我有一个测试 Chrome 浏览器版本（遥测）的性能测试套件。对于给定的测试，我正在尝试确定一个版本是否更快/更慢或与另一个版本没有显着差异。

对于每个测试运行，我都会获得：avg、std、count、max、min、sum。

我可以比较两个测试运行（例如在两个浏览器之间）并给出：delta avg, % delta avg, delta std, % delta std, ... 等等。我还给出了 p 值（直方图的概率没有显着差异）、z 分数（又名标准分数：直方图平均值和参考直方图平均值之间的标准偏差数）和 U 统计量（Mann-Whitney U 假设检验产生和消耗的数字） .

给定这些测试统计数据，我怎么能肯定地说一个浏览器比另一个浏览器更慢/更快或没有什么不同？

我正在考虑只检查 p 值 < 0.05，如果是，则比较平均值。但这似乎太简单了。

非常感谢任何帮助。

更新：

如果我重新运行测试，两个浏览器之间的 % delta avg 会得到 +/- 10%，因此仅查看 avg 和 p 值是不够的。

score 0 · Accepted Answer

首先，您必须选择要执行的测试类型（参数或非参数）。我不会使用 z 检验，因为我想你估计了标准。

如果您的数据是正常的并且它们具有相等的方差，您可以执行t 检验（参数）。如果它们没有相等的方差，您可以使用 Welch 的 t 检验。
如果它们不正常，您应该执行 Mann-Whitney 检验（非参数）。但是，mann-whitney 仅在分布彼此不同而不是均值不同时进行测试。如果您很幸运并且它们具有相同的方差，那么您可以对均值进行推断。

确保在您使用的统计软件中执行的是单面测试，这样您才能真正看到哪个浏览器更慢/更快。请注意，如果您拒绝假设 avg(X)>avg(Y)，并不意味着 avg(Y)>avg(X)。这意味着统计上的 avg(Y)>=avg(X)。

最后，您必须使用 X 置信度执行测试，才能对您的结果有 X% 的把握。更简单地说，检查 p 值是否<1-X。如果您先执行正态性检验，然后执行 t 检验，则这是无效的，那么您对结果的确定性不到 X%！

使用您可用的值，您可以执行上述所有测试。

performance - 假设检验以确定平均值是否更大

1 回答 1

Related

Reference