我有一个执行
函数 foo() {...}
每个用户会话多次。我可以将 2 种替代算法实现为“foo”函数,我的目标是使用 A/B 测试根据执行延迟来评估它们。
每个用户会话调用 foo() 的次数是可变的,但不会超过 10000。每个值的范围在 [1 - 400] 毫秒之间。说延迟值是:
Algo1: [ [12, 30, 20, 40, 280] , [13, 14, 15, 100, 10], [20, 40] , ... ]
Algo2: [ [1, 10, 5, 4, 150] , [14, 10, 20], [21, 33, 41, 79], ... ]
我的问题是选择获胜者的最佳指标是什么?
可能的选择
每个会话的平均值,然后评估 cdf
每个会话的中位数,然后评估 cdf
还要别的吗 ?