我正在做 A/B 测试,我在我的结果中面临辛普森悖论(天 vs 月 vs 测试的总持续时间)。
- 这是否意味着我的 a/b 测试不正确/不具有代表性?(一些外部因素影响了测试?)
- 如果这是问题的征兆,应遵循哪些指示?
感谢您的大力帮助。
我正在做 A/B 测试,我在我的结果中面临辛普森悖论(天 vs 月 vs 测试的总持续时间)。
感谢您的大力帮助。
如果没有看到您正在测试的确切数据和维度,很难说,但一般来说,您希望根据未组合的数据做出决策。Microsoft 的这篇文章给出了一个非常清楚的例子,说明了 Simpson 在软件测试中的悖论。
您能否提供一个关于您的合并和未合并数据的清晰示例以及测试的简短摘要?
如果 A 在单个 A/B 测试中明显更好,而 B 在总体上得分更高,那么主要的含义是您不能以这种方式聚合这些数据集。A 更好。
如果测试每天都得到相同的结果,即使每天的样本量不同,你也不会得到这个明确的结果。所以我认为这也意味着某些事情发生了变化。不过,它可以是任何东西。也许您每天测试的内容发生了变化(也许以某种非常微妙的方式,例如服务器速度)。或者也许你正在测试它的人发生了变化(也许是人口统计,也许只是他们的情绪)。这并不意味着您的测试不好或无效。这只是意味着您正在测量正在移动的东西,这让事情变得棘手。
而且我可能会误判或误解情况,但我认为您没有测试 A 和 B 的次数也一定是正确的。也就是说,如果星期一你测试了 A 50 次和 B 50 次,而星期二你测试了 A 600 次和 B 600 次,依此类推,并且 A 每天都超过 B,那么我不明白你怎么能得到B 击败 A 的汇总结果。如果您的测试设置确实如此,那么您当然可以修复它以使您的数据更易于推理。
辛普森悖论仅在您的团队规模不同时发生。实际上,最终结果是每组结果的加权平均值(在这个加权上,可能会出现悖论)。
它实际上不是由外部因素或东西引起的。这只是因为一组更重要(因为组中有更多元素)。
如果您提供更多信息,我们可能会提供更好的帮助。