1

如果您正在运行一个创建了 10 个热门新闻故事列表的新闻网站,并且您想对您的算法进行调整,看看人们是否更喜欢新的热门故事组合,您将如何处理?

简单点击登录与帖子条目关联的数据库?

A/B 测试在哪里您将向 A 组显示算法的一个版本,向 B 组显示另一个版本并测量点击次数?

你会根据什么样的特征来决定这些变化是否更好?

4

2 回答 2

1

除了监控点击次数之外,监控他们查看他们点击的故事的时间也可能会有所帮助。它是更复杂的数据,但提供了另一个层次的信息。然后,您不仅会看到您挑选的故事是否吸引了用户的注意力,而且还会看到这些故事能够留住用户的注意力。

您可以进行统计分析(即像 Tim 建议的 T 检验),但您可能不会在任一度量上获得足够低的标准偏差来证明显着性。不过,这并不重要:您所需要的只是让其中一种算法具有更高的平均点击次数和/或花费的时间。希望没有必要胡乱进行假设检验。

当然,总是可以选择简单地询问用户推荐是否相关,但这可能不适合您的情况。

于 2008-09-17T02:27:29.847 回答
1

A/B 测试似乎是一个好的开始,并且随机分配参与者。你必须记住它们,这样它们就永远不会同时看到它们。

您可以将其视为行为心理学实验,进行 T 检验等...

于 2008-09-16T01:11:38.430 回答