11

威尔逊的置信区间将值 TRUE 或 FALSE 或“upvotes”和“downvotes”分别作为参数。根据这些投票,它会产生一个评级。

就我的项目而言,我认为 WCI 是完美的。然而,标量的赞成票和反对票不足以描述我正在评价的东西。

这就是 5 星评级的来源,这就是我需要有人来反驳我的逻辑的地方。现在我在想,如果我要使用 WCI 实现 5 星评级,那么以下内容应该可以在不破坏置信区间内部的情况下工作。

对于评分小部件中的每个星,我们分配一个唯一的整数值。每个值都算作正面(赞成)或负面(反对)。所以以下值将是:

1/5 星:-2 2/5 星:-1 3/5 星:1 4/5 星:2 5/5 星:3

总结以上价值观。1 星的最低投票被归类为 2 票。2 星的投票被归类为 1 票反对。对于 3 星的中等投票,我们给予 1 票。对于 4 星,我们给予 2 票。对于最多 5 颗星,我们给予 3 票赞成。

请反驳这个逻辑,为什么这行不通?也许它违背了星级系统的“普通人的理解”?

4

3 回答 3

4

很容易想到以下“解决方法”,它将多排名系统转换为二进制“upvote/downvote”风格的排名(然后可以使用 Wilson 得分置信区间的下限进行评分):

假设您拥有流行的 5 星评级系统。所以我们有很多票,每个票的值是:1、2、3、4 或 5。

要将这些评级“转换”为赞成/反对票,请使用以下规则:

For star rating -- Add

*     - 0.00 to up votes and 1.00 to down votes (i.e. a full down vote)
**    - 0.25 to up votes and 0.75 to down votes
***   - 0.50 to up votes and 0.50 to down votes
****  - 0.75 to up votes and 0.25 to down votes
***** - 1.00 to up votes and 0.00 to down votes (i.e. a full up vote)

在我们将 5 星评级降低为上/下评级后,我们可以继续进行 Evan Miller 文章中描述的通常分数计算。

因为我不是统计学家或数学家,我很想听听其他人的意见,这是否有意义,以及这种方法可能存在什么问题。

于 2015-11-04T16:19:25.533 回答
2

首先,尝试了解 WCI 背后的直觉是什么。或者,甚至更简单,正态近似区间(http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval)。

所有这些区间计算背后的直觉很简单。您计算样本均值和标准差。区间是平均值+-z*std。

在您的情况下,计算平均值很简单。它是收视率本身的平均值。假设 p1 是 1 星评级的分数,p2,...,p5。p1+p2+...+p5 = 1。假设您正在使用 n 个样本计算这些统计数据。您的数据平均值为 1*p1+2*p2+...+5*p5。

您的数据的方差是 ( E(x^2)-(E(x))^2 )/n = ( (p1*1^2 + p2*2^2..+p5*5^2) - ( 1*p1+2*p2+..+5*p5)^2)/n

由于 std = sqrt(var),计算正态逼近区间非常简单。我会让你把它扩展到 WCI。

于 2014-01-15T17:44:26.433 回答
1

这个方案最大的问题是,一个 5 星评级的权重相当于 3 个 2 星评级。而且,一个 300 个 3 星评级(应该是中等分数)的项目将与一个 100 个 5 星评级(应该是一个完美分数)的项目具有相同的分数。

可以做的是为每个可能的分数计算威尔逊置信区间。然后,每个间隔的下限是该分数对(加权)平均值的权重。

于 2015-02-07T22:31:09.593 回答