1

我有一个测试 Chrome 浏览器版本(遥测)的性能测试套件。对于给定的测试,我正在尝试确定一个版本是否更快/更慢或与另一个版本没有显着差异。

对于每个测试运行,我都会获得:avg、std、count、max、min、sum。

我可以比较两个测试运行(例如在两个浏览器之间)并给出:delta avg, % delta avg, delta std, % delta std, ... 等等。我还给出了 p 值(直方图的概率没有显着差异)、z 分数(又名标准分数:直方图平均值和参考直方图平均值之间的标准偏差数)和 U 统计量(Mann-Whitney U 假设检验产生和消耗的数字) .

给定这些测试统计数据,我怎么能肯定地说一个浏览器比另一个浏览器更慢/更快或没有什么不同?

我正在考虑只检查 p 值 < 0.05,如果是,则比较平均值。但这似乎太简单了。

非常感谢任何帮助。


更新:

如果我重新运行测试,两个浏览器之间的 % delta avg 会得到 +/- 10%,因此仅查看 avg 和 p 值是不够的。

4

1 回答 1

0

首先,您必须选择要执行的测试类型(参数或非参数)。我不会使用 z 检验,因为我想你估计了标准。

  1. 如果您的数据是正常的并且它们具有相等的方差,您可以执行t 检验(参数)。如果它们没有相等的方差,您可以使用 Welch 的 t 检验。
  2. 如果它们不正常,您应该执行 Mann-Whitney 检验(非参数)。但是,mann-whitney 仅在分布彼此不同而不是均值不同时进行测试。如果您很幸运并且它们具有相同的方差,那么您可以对均值进行推断。

确保在您使用的统计软件中执行的是单面测试,这样您才能真正看到哪个浏览器更慢/更快。请注意,如果您拒绝假设 avg(X)>avg(Y),并不意味着 avg(Y)>avg(X)。这意味着统计上的 avg(Y)>=avg(X)。

最后,您必须使用 X 置信度执行测试,才能对您的结果有 X% 的把握。更简单地说,检查 p 值是否<1-X。如果您先执行正态性检验,然后执行 t 检验,则这是无效的,那么您对结果的确定性不到 X%!

使用您可用的值,您可以执行上述所有测试。

于 2017-05-28T23:30:21.887 回答