0

假设用户以 1 到 5 的比例为某些电影投票。这些电影具有流派信息,而一部电影可以有多个流派。像这样:

Movie A Rating 4
Action/Sci-Fi

Movie B Rating 5
Comedy/Action

Movie C Rating 4
Comedy/Drama

我们想了解我们的用户喜欢哪种类型。这里我们有我们的结果集:

Genre Movie_Count Average_Rating

----------
Action 2 5
Comedy 2 4.5
SciFi 1 4
Drama 1 4

显然,我们无法用这么小的结果集预测任何东西,但让我们假设我们有一个更大的数据集。

使用这些数据,我们如何对该用户最喜欢的类型进行排序?简单地计算加权平均值或更复杂的东西?

4

1 回答 1

1

我在这里看到的主要问题是:

用户对 1000 部喜剧电影进行评分,平均得分为 4

用户评价 10 部动作片,平均得分为 4.1

你如何订购它们?

有关讨论和一种可能的解决方案,请参见http://www.evanmiller.org/how-not-to-sort-by-average-rating.html

另一个问题是:

如果一部电影既是喜剧又是动作片,并被评为 4.0,因为它是喜剧片还是动作片,它的评分是多少?

您可以使用期望最大化http://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm来解决这个问题。

于 2012-02-07T00:27:37.757 回答