2

我正在一个网站上工作,该网站将有数以万计的故事。各种格式的故事:文本、视频、照片和其他多媒体元素。故事可以在各种基础上进行过滤,其中一些是“新”的,显然首先包含最新的故事,“精选”的故事将手动标记为特色,而“流行”的故事我需要提出一个算法。

到目前为止,我正在做的是平均 facebook 喜欢、分享数量(包括 facebook、twitter 或任何其他分享)和视图数量。但这对我来说并不好。因为出于社交垃圾邮件等原因,对所有三个指标赋予相同的权重年龄听起来并不真实。

期待一些非常好的算法来对故事的受欢迎程度进行排名。

- - 添加 - - -

流行度算法仅讨论基于“喜欢”的算法,该算法基于将结果分类为时间戳类别:日、周和月流行。而有一个答案,几乎可以回答我的查询,但不完全是因为那里假设了指标。我正在寻找一些具有真实解释的确切指标。例如“facebook *2”,解释为什么 *2 用于 facebook。我希望我现在没有重复!


4

1 回答 1

3

我建议尝试使用回归算法。最广泛使用的是线性回归,但如果该模型不适合 - 请随意探索其他模型。

  1. 首先,确定每个故事的特点。您的功能是点赞、推文、分享、浏览量……。我还要为每种类型(视频/照片/……)添加一个布尔指标(变量只能是 0 或 1)。
  2. 接下来,为自己创建一个训练集——这是一组你(或其他人类专家)打分的故事。
  3. 现在,使用这些特征和训练集 - 使用一些回归算法来创建一个模型,该模型最适合您已经评分的示例的特征。1
  4. 拥有模型后 - 您可以使用它为所有其他文档打分。

关于垃圾邮件发送者检测 - 您可以尝试异常检测算法


(1) 实际上,第 2 步和第 3 步可以一起完成 - 使用主动回归技术 - 在主动回归中,学习器(算法)会要求您提供可以使算法尽可能快地学习的示例。根据我的实验,PAlice是一种性能非常好的主动回归算法。

于 2014-03-10T08:49:10.087 回答