5

简洁版本:

我有与 StackOverflow 类似的设置。用户获得成就。我的成就比 SO 多得多,可以说大约 10k,每个用户都有 100 多个成就。现在,您将如何推荐(推荐)用户尝试的下一个成就?

长版:

对象在 django 中像这样建模(仅显示重要部分):

class User(models.Model):
    alias = models.ForeignKey(Alias)

class Alias(models.Model):
    achievements = models.ManyToManyField('Achievement', through='Achiever')

class Achievement(models.Model):
    points = models.IntegerField()

class Achiever(models.Model):
    achievement = models.ForeignKey(Achievement)
    alias = models.ForeignKey(Alias)
    count = models.IntegerField(default=1)

我的算法只是找到与登录用户有共同成就的所有其他用户,然后查看他们的所有成就并按出现次数排序:

def recommended(request) :
    user = request.user.get_profile()

    // The final response
    r = {}

    // Get all the achievements the user's aliases have received 
    // in a set so they aren't double counted
    achievements = set()
    for alias in user.alias_set.select_related('achievements').all() :
        achievements.update(alias.achievements.all())

    // Find all other aliases that have gotten at least one of the same
    // same achievements as the user
    otherAliases = set()
    for ach in achievements :
        otherAliases.update(ach.alias_set.all())

    // Find other achievements the other users have gotten in addition to
    // the shared ones.
    // And count the number of times each achievement appears
    for otherAlias in otherAliases :
        for otherAch in otherAlias.achievements.all() :
            r[otherAch] = r.get(otherAch, 0) + 1

    // Remove all the achievements that the user has already gotten
    for ach in achievements :
        r.pop(ach)

    // Sort by number of times the achievements have been received
    r = sorted(r.items(), lambda x, y: cmp(x[1], y[1]), reverse=True)

    // Put in the template for showing on the screen
    template_values = {}
    template_values['achievements'] = r

但是它需要 FOREVER 才能运行,并且总是返回整个列表,这是不需要的。用户只需要前几项成就即可。

因此,欢迎我提出有关其他算法和/或代码改进的建议。我会在我的系统中为您提供推荐算法的成就:)

4

2 回答 2

3

您可以推荐获得哪些成就的一种方法是查看有多少用户已经拥有这些成就并推荐那些受欢迎的成就。当他们达到这些目标时,您会在列表中列出并推荐稍微不那么受欢迎的目标。然而,这有一个天真的假设,即每个人都想追求受欢迎的成就。它可能会导致热门成就更受欢迎和更不受欢迎,嗯......令人欣慰的是,这不会占用太多资源,并且可能会运行得非常快。(只需保留成就列表+实现次数)

另一种方法(尝试根据用户已经拥有的成就来猜测用户可能追求的成就)是使用一些机器学习算法。我认为k-最近邻算法在这里会表现得很好。选择一个阈值并仅输出高于此阈值的所有内容。现在,我不知道这是否会比您已经拥有的运行得更快,但是您应该在每次用户取得新成就时运行推荐引擎一次,存储前(假设)五个,然后输出它在需要推荐时返回给用户。

我希望这有帮助。=)

于 2009-07-04T08:52:03.660 回答
2

我建议您将前三个步骤(成就、其他别名、计数)作为一个 SQL 语句执行。就像现在一样,您在 Python 中发出大量查询并汇总数千行,这是您应该委托给数据库的任务。例如代码

for otherAlias in otherAliases : #For every single other user
    for otherAch in otherAlias.achievements.all() : #execute a query
        r[otherAch] = r.get(otherAch, 0) + 1

执行数千个巨大的查询。

相反,您可以使用 SQL 来执行此操作,方法是根据 Alias id 不同且成就 id 相同来加入成就者本身。然后,您按成就 ID 分组并进行计数。

在下面的查询中,表“B”是其他用户的成就,“Achiever”是我们的成就。如果有任何其他用户分享了一项成就,他们会在“B”中为他们分享的每项成就出现一次。然后我们按 alias_id 对它们进行分组,并计算它们出现的次数,这样你就可以得到一个不错的 id,把表数出来。

非常非常粗略的代码(这里没有可用的 SQL)

SELECT B.Alias_id, COUNT(B.achievement_id) 
  FROM Achiever, Achiever as B 
  WHERE Achiever.achievement_id == B.achievement_id 
     AND Achiever.Alias_id == <insert current user alias here>;
  GROUP BY B.Alias_id

如果按照我认为的方式工作,您将获得一个其他用户别名的表格,以及他们与当前用户共享的成就数量。

您要做的下一件事是使用上述语句作为“内部选择”的 SQL 语句 - 将其称为用户。您将其与当前用户的成就表和成就表连接起来。您可能希望忽略与当前用户相似的前 10 个用户以外的所有用户。

我现在没有时间编写一个好的查询,但请查看您的数据库的 JOIN 语句,该语句在指定的 10 个用户和当前用户之间加入成就 ID - 如果不存在,则将该 ID 设置为 NULL。过滤器只筛选出现 NULL 的行(未实现的成就)。

于 2009-07-06T04:18:10.047 回答