1

我即将开始一个新项目——一个视频网站。用户将能够通过单击“喜欢”或“不喜欢”或类似的东西来注册并对视频进行投票。无论如何,这将是一个二选项投票系统,而不是一个五星级系统。

每隔 X 天,我将生成一张最受欢迎视频的“图表”。所以我的问题是:我应该如何确定给定视频的受欢迎程度?

如果我去统计观看次数最多的视频,这可能会产生非常糟糕的视频进入排行榜的效果(只是因为它们太糟糕了)。

如果我采用基于“喜欢”和“不喜欢”票数的评分系统(例如,100 票喜欢,50 票不喜欢票等于 2 分),观看次数很少的视频可能会出现在顶部图表。

所以,我需要做的是两者的结合。当然,除了垃圾评论和投票之外。

小伙伴们对这个话题有什么看法?

编辑删除了以下标签:[ mysql ] [ postgresql ],为其他更具代表性的标签腾出空间;预期实现中使用的 SQL 技术似乎对评级模型本身的考虑没有太大影响。

4

2 回答 2

5

即使在相对同质的“选民”群体的背景下,您似乎也忽略了电影中的好恶绝不是客观的观点。想想“ Chix Flix ”这个词或名为“ NetFlix ”的成功故事是如何说明这种主观性的……

然而,如果您坚持实施您建议的模型,则需要承认并可能在评级公式中考虑到几个隐藏变量和系统动态。

  • 存在第三个隐含的投票值:“不投票”
    ,即当有人查看电影页面但不投票时,无论哪种方式。
    处理这个额外价值的问题是它的模糊性:人们不投票是因为他们没有看过这部电影还是因为他们既不喜欢也不喜欢它?很可能两者兼而有之,因此我们可以/应该在公式中使用“未经投票的页面浏览量”的计数,以提高(某种程度上)不会产生强烈(正面或负面)情绪的电影的评级(以免“两极分化”电影将显得更加臭名昭著或受欢迎)
  • 潮流效应
    超过某个阈值,特别是如果评级和/或投票计数在页面查看之前可见,则评级和投票计数会影响人们决定投票(无论哪种方式)甚至决定弃权的方式。这意味着总投票数和/或观看次数与有效评级没有线性关系。
  • 质量”与“恶名
    一般的投票比率(例如“喜欢”/“总”或“喜欢”/“不喜欢”等)表示电影的“质量”(注意质量周围的引号...... .),其中票数(和观点)表示电影的恶名(“名称识别”等)。
  • 统计代表性
    非常小的投票和/或观看次数要小心处理,因为它们会在评级中引入很大的波动性。换句话说,小样本的静态代表性评级不那么高。
  • 趋势(时间变量)
    冒着使模型复杂化的风险,考虑保留 [一些] 记录何时发生投票/观看,以允许识别集合中的“热门”(和“冷却”)电影。该信息可以通知评级逻辑,但也可以用于将用户引导至当前热门项目。顺便说一句,因此增加了提到的潮流效应:-(但也增加了投票样本的大小:-)。

所有这些考虑都表明在实施这个评级系统时要谨慎。它还暗示可能需要将有关整套电影的统计数据纳入单个电影的评级公式。换句话说,不要仅仅根据它自己的投票/观看次数来评价给定的电影,还要说平均投票数,电影页面获得的最大观看次数等。事实上,一个迭代过程,电影首先[大致]排名,然后通过使用类似评级的电影组的统计数据重新计算排名可能提供更好的系统(假设公式是“公平的”并且以某种方式收敛)

于 2010-03-17T17:26:57.440 回答
1

一个标准的技巧是从一个中性的基线开始:比如 10 个喜欢和 10 个不喜欢,得分为 1。前几票不会改变太多的比例,但随着投票的积累,基线会被压倒。基线值的准确选择将影响新电影的评分(这两个值不必相等),以及需要多少票才能大幅改变评分。

于 2010-03-17T18:50:11.490 回答