我有一个测试 Chrome 浏览器版本(遥测)的性能测试套件。对于给定的测试,我正在尝试确定一个版本是否更快/更慢或与另一个版本没有显着差异。
对于每个测试运行,我都会获得:avg、std、count、max、min、sum。
我可以比较两个测试运行(例如在两个浏览器之间)并给出:delta avg, % delta avg, delta std, % delta std, ... 等等。我还给出了 p 值(直方图的概率没有显着差异)、z 分数(又名标准分数:直方图平均值和参考直方图平均值之间的标准偏差数)和 U 统计量(Mann-Whitney U 假设检验产生和消耗的数字) .
给定这些测试统计数据,我怎么能肯定地说一个浏览器比另一个浏览器更慢/更快或没有什么不同?
我正在考虑只检查 p 值 < 0.05,如果是,则比较平均值。但这似乎太简单了。
非常感谢任何帮助。
更新:
如果我重新运行测试,两个浏览器之间的 % delta avg 会得到 +/- 10%,因此仅查看 avg 和 p 值是不够的。