我正在尝试使用 5 星系统按客户评分对一堆产品进行分类。我正在为其设置的网站没有很多评分,并且会继续添加新产品,因此通常会有一些评分较低的产品。
我尝试使用平均星级,但当评级数量很少时,该算法会失败。
例如,具有 3x 5 星评级的产品会比具有 100x 5 星评级和 2x 2 星评级的产品显示得更好。
第二个产品不应该显示得更高,因为它在统计上更值得信赖,因为评级数量更多吗?
我正在尝试使用 5 星系统按客户评分对一堆产品进行分类。我正在为其设置的网站没有很多评分,并且会继续添加新产品,因此通常会有一些评分较低的产品。
我尝试使用平均星级,但当评级数量很少时,该算法会失败。
例如,具有 3x 5 星评级的产品会比具有 100x 5 星评级和 2x 2 星评级的产品显示得更好。
第二个产品不应该显示得更高,因为它在统计上更值得信赖,因为评级数量更多吗?
在 2015 年之前,互联网电影数据库 (IMDb) 公开列出了用于排名其前 250部电影列表的公式。去引用:
计算 Top Rated 250 Titles 的公式给出了真正的贝叶斯估计:
weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
在哪里:
- R =电影的平均值(平均值)
- v = 电影票数
- m = 进入前 250 名所需的最低票数(目前为 25000)
- C = 整个报告的平均投票数(目前为 7.0)
对于前 250 名,仅考虑普通选民的投票。
这并不难理解。公式为:
rating = (v / (v + m)) * R +
(m / (v + m)) * C;
这可以在数学上简化为:
rating = (R * v + C * m) / (v + m);
变量是:
[1, 5]
。以此类推。)[2, 3, 5, 5]
.C 是 3.75,这些数字的平均值。)公式所做的只是:在计算平均值之前添加 m 个假想票,每个票的值为 C。一开始,当没有足够的数据(即投票数大大少于m)时,这会导致空白被平均数据填充。然而,随着选票的积累,最终虚构的选票将被真实的选票淹没。
在这个系统中,投票不会导致评级大幅波动。相反,他们只是在某个方向上稍微扰乱了它。
当票数为零时,仅存在虚票,并且都是 C。因此,每个项目都以 C 开头。
也可以看看:
Evan Miller 展示了一种贝叶斯方法来排名 5 星评级:
在哪里
nk
是k
星级的数量,sk
是k
星星的“价值”(以点为单位),N
是总票数K
是最大星数(例如 K=5,在 5 星评级系统中)z_alpha/2
是1 - alpha/2
正态分布的分位数。如果您想要 95% 的置信度(基于贝叶斯后验分布)实际排序标准至少与计算的排序标准一样大,请选择z_alpha/2
= 1.65。在 Python 中,排序标准可以用
def starsort(ns):
"""
http://www.evanmiller.org/ranking-items-with-star-ratings.html
"""
N = sum(ns)
K = len(ns)
s = list(range(K,0,-1))
s2 = [sk**2 for sk in s]
z = 1.65
def f(s, ns):
N = sum(ns)
K = len(ns)
return sum(sk*(nk+1) for sk, nk in zip(s,ns)) / (N+K)
fsns = f(s, ns)
return fsns - z*math.sqrt((f(s2, ns)- fsns**2)/(N+K+1))
例如,如果一个项目有 60 颗五星、80 颗四星、75 颗三星、20 颗二星和 25 颗一星,那么它的总星级大约是 3.4:
x = (60, 80, 75, 20, 25)
starsort(x)
# 3.3686975120774694
您可以使用以下命令对 5 星评级列表进行排序
sorted([(60, 80, 75, 20, 25), (10,0,0,0,0), (5,0,0,0,0)], key=starsort, reverse=True)
# [(10, 0, 0, 0, 0), (60, 80, 75, 20, 25), (5, 0, 0, 0, 0)]
这显示了更多评级对整体星级值的影响。
你会发现这个公式给出的总体评分往往比亚马逊、Ebay 或沃尔玛等网站报告的总体评分略低,尤其是在选票很少(例如,少于 300 票)时。这反映了选票减少带来的更高不确定性。随着投票数量的增加(增加到数千),所有这些评分公式总体上应该趋向于(加权)平均评分。
由于该公式仅取决于项目本身 5 星评分的频率分布,因此只需将频率分布相加即可轻松组合来自多个来源的评论(或 根据新投票更新总体评分)。
与 IMDb 公式不同,该公式不依赖于所有项目的平均分数,也不依赖于人为的最小票数截止值。
此外,这个公式利用了完整的频率分布——不仅仅是平均星数和投票数。这是有道理的,因为具有 10 个 5 星和 10 个 1 星的项目应该被视为比具有 20 个 3 星评级的项目具有更多的不确定性(因此不被评为高):
In [78]: starsort((10,0,0,0,10))
Out[78]: 2.386028063783418
In [79]: starsort((0,0,20,0,0))
Out[79]: 2.795342687927806
IMDb 公式没有考虑到这一点。
好吧,根据您想要制作的复杂程度,您还可以根据该人的评分数量以及这些评分是什么来对评分进行加权。如果这个人只做了一个评级,它可能是一个先令评级,并且可能计算得更少。或者如果这个人在 a 类中评分很多,但在 b 类中评分很少,并且平均评分为 1.3 颗星(满分 5 星),听起来 a 类可能被该用户的低平均分人为压低,并且应该调整。
但足以让它变得复杂。让我们简单点。
假设我们只使用两个值,ReviewCount 和 AverageRating,对于一个特定的项目,我认为 ReviewCount 本质上是“可靠性”值是有意义的。但我们不只是想降低低 ReviewCount 项目的分数:单个 1 星评级可能与单个 5 星评级一样不可靠。所以我们想要做的可能是平均到中间:3。
所以,基本上,我在想一个方程,比如 X * AverageRating + Y * 3 = the-rating-we-want。为了使这个值正确,我们需要 X+Y 等于 1。此外,随着 ReviewCount 的增加,我们需要 X 的值增加……评论计数为 0,x 应该为 0(给我们一个等式“ 3”),并且评论数无限,X 应为 1(这使得等式 = AverageRating)。
那么什么是 X 和 Y 方程呢?对于 X 方程,当自变量接近无穷大时,希望因变量渐近接近 1。一组好的方程类似于: Y = 1/(factor^RatingCount) 和(利用 X 必须等于 1-Y 的事实)X = 1 – (1/(factor^RatingCount)
然后我们可以调整“因子”以适应我们正在寻找的范围。
我使用这个简单的 C# 程序尝试了几个因素:
// We can adjust this factor to adjust our curve.
double factor = 1.5;
// Here's some sample data
double RatingAverage1 = 5;
double RatingCount1 = 1;
double RatingAverage2 = 4.5;
double RatingCount2 = 5;
double RatingAverage3 = 3.5;
double RatingCount3 = 50000; // 50000 is not infinite, but it's probably plenty to closely simulate it.
// Do the calculations
double modfactor = Math.Pow(factor, RatingCount1);
double modRating1 = (3 / modfactor)
+ (RatingAverage1 * (1 - 1 / modfactor));
double modfactor2 = Math.Pow(factor, RatingCount2);
double modRating2 = (3 / modfactor2)
+ (RatingAverage2 * (1 - 1 / modfactor2));
double modfactor3 = Math.Pow(factor, RatingCount3);
double modRating3 = (3 / modfactor3)
+ (RatingAverage3 * (1 - 1 / modfactor3));
Console.WriteLine(String.Format("RatingAverage: {0}, RatingCount: {1}, Adjusted Rating: {2:0.00}",
RatingAverage1, RatingCount1, modRating1));
Console.WriteLine(String.Format("RatingAverage: {0}, RatingCount: {1}, Adjusted Rating: {2:0.00}",
RatingAverage2, RatingCount2, modRating2));
Console.WriteLine(String.Format("RatingAverage: {0}, RatingCount: {1}, Adjusted Rating: {2:0.00}",
RatingAverage3, RatingCount3, modRating3));
// Hold up for the user to read the data.
Console.ReadLine();
因此,您不必费心复制它,它会给出以下输出:
RatingAverage: 5, RatingCount: 1, Adjusted Rating: 3.67
RatingAverage: 4.5, RatingCount: 5, Adjusted Rating: 4.30
RatingAverage: 3.5, RatingCount: 50000, Adjusted Rating: 3.50
类似的东西?您显然可以根据需要调整“因子”值以获得所需的权重。
如果您只需要一个快速且廉价的解决方案,并且大多数情况下都可以在不使用大量计算的情况下工作,那么这里有一个选项(假设评分为 1-5)
SELECT Products.id, Products.title, avg(Ratings.score), etc
FROM
Products INNER JOIN Ratings ON Products.id=Ratings.product_id
GROUP BY
Products.id, Products.title
ORDER BY (SUM(Ratings.score)+25.0)/(COUNT(Ratings.id)+20.0) DESC, COUNT(Ratings.id) DESC
通过添加 25 并除以总评分 + 20,您基本上是在总评分中添加 10 个最差分数和 10 个最佳分数,然后进行相应排序。
这确实存在已知问题。例如,它不公平地奖励评分很少且评分较低的产品(如图所示,平均评分为 1 且只有一个评分的产品评分为 1.2,而平均评分为 1 且评分为 1k+ 的产品评分接近 1.05)。你也可以争辩说它不公平地惩罚了评级很少的高质量产品。
此图表显示了超过 1-1000 个评级的所有 5 个评级会发生什么情况: http ://www.wolframalpha.com/input/?i=Plot3D%5B%2825%2Bxy%29/%2820%2Bx%29%2C%7Bx %2C1%2C1000%7D%2C%7By%2C0%2C6%7D%5D
你可以在最底层的评级中看到向上的下降,但总的来说,我认为这是一个公平的排名。你也可以这样看:
如果您在此图表中的大多数位置放置弹珠,它会自动滚动到具有更高分数和更高评级的产品。
显然,评级数量少使这个问题成为统计上的障碍。尽管如此...
提高综合评级质量的一个关键要素是“对评级者进行评级”,即密切关注每个特定“评级者”提供的评级(相对于其他人)。这允许在聚合过程中权衡他们的投票。
另一种解决方案,更多的是应对,是为最终用户提供对基础项目的投票计数(或其范围指示)。
一种选择是类似于 Microsoft 的 TrueSkill 系统,其中分数由 给出mean - 3*stddev
,其中的常数可以调整。
看了一会儿,我选择了贝叶斯系统。如果有人在使用 Ruby,这里有一个 gem:
我强烈推荐 Toby Segaran (OReilly) ISBN 978-0-596-52932-1 编写的 Programming Collective Intelligence 一书,该书讨论了如何从人群行为中提取有意义的数据。这些示例是用 Python 编写的,但它很容易转换。