如果您正在运行一个创建了 10 个热门新闻故事列表的新闻网站,并且您想对您的算法进行调整,看看人们是否更喜欢新的热门故事组合,您将如何处理?
简单点击登录与帖子条目关联的数据库?
A/B 测试在哪里您将向 A 组显示算法的一个版本,向 B 组显示另一个版本并测量点击次数?
你会根据什么样的特征来决定这些变化是否更好?
除了监控点击次数之外,监控他们查看他们点击的故事的时间也可能会有所帮助。它是更复杂的数据,但提供了另一个层次的信息。然后,您不仅会看到您挑选的故事是否吸引了用户的注意力,而且还会看到这些故事能够留住用户的注意力。
您可以进行统计分析(即像 Tim 建议的 T 检验),但您可能不会在任一度量上获得足够低的标准偏差来证明显着性。不过,这并不重要:您所需要的只是让其中一种算法具有更高的平均点击次数和/或花费的时间。希望没有必要胡乱进行假设检验。
当然,总是可以选择简单地询问用户推荐是否相关,但这可能不适合您的情况。
A/B 测试似乎是一个好的开始,并且随机分配参与者。你必须记住它们,这样它们就永远不会同时看到它们。
您可以将其视为行为心理学实验,进行 T 检验等...