33

我一直在阅读 + 研究算法和公式,以便为我的用户提交的内容计算分数,以显示当前热门/热门项目,但我承认我在这里有点过头了。

我将提供一些关于我所追求的背景......用户将音频上传到我的网站,音频有几个动作:

  • 玩过
  • 已下载
  • 喜欢
  • 收藏

理想情况下,我想要一种算法,每次记录新活动(播放、下载等)时,我都可以更新音频分数,下载操作也比播放更有价值,比如下载和收藏一样。

如果可能的话,我希望超过 1 周的音频从列表中大幅下降,以使更新的内容更有可能成为趋势。

我已经阅读了看起来不错的 reddits 算法,但我对如何调整它以利用我的多个变量以及在大约 7 天后放弃旧文章感到困惑。

我们感兴趣的一些文章:

任何帮助表示赞赏!

保罗

4

1 回答 1

65

Reddits 旧公式和一点下降

基本上你可以使用 Reddit 的公式。由于您的系统仅支持投票,因此您可以对它们进行加权,结果如下:

def hotness(track)
    s = track.playedCount
    s = s + 2*track.downloadCount
    s = s + 3*track.likeCount
    s = s + 4*track.favCount
    baseScore = log(max(s,1))

    timeDiff = (now - track.uploaded).toWeeks

    if(timeDiff > 1)
        x = timeDiff - 1
        baseScore = baseScore * exp(-8*x*x)

    return baseScore

该因素exp(-8*x*x)将为您提供所需的下车:

指数下降

背后的基础

您可以使用任何比您的分数上升更快的函数归零。由于我们log在分数上使用,即使是线性函数也可以成倍增加(只要您的分数没有呈指数增长)。

所以你所需要的只是一个函数,1只要你不想修改分数,它就会返回,然后就会下降。我们上面的例子形成了这个功能:

multiplier(x) = x > 1 ? exp(-8*x*x) : 1

如果您想要不那么陡峭的曲线,您可以改变乘数。 可变乘数

C++ 中的示例

假设在给定小时内播放给定曲目的概率是 50%,下载 10%,喜欢 1%,喜欢 0.1%。然后下面的 C++ 程序会给你一个分数行为的估计:

#include <iostream>
#include <fstream>
#include <random>
#include <ctime>
#include <cmath>

struct track{
    track() : uploadTime(0),playCount(0),downCount(0),likeCount(0),faveCount(0){}
    std::time_t uploadTime;    
    unsigned int playCount;
    unsigned int downCount;
    unsigned int likeCount;
    unsigned int faveCount;    
    void addPlay(unsigned int n = 1){ playCount += n;}
    void addDown(unsigned int n = 1){ downCount += n;}
    void addLike(unsigned int n = 1){ likeCount += n;}
    void addFave(unsigned int n = 1){ faveCount += n;}
    unsigned int baseScore(){
        return  playCount +
            2 * downCount +
            3 * likeCount +
            4 * faveCount;
    }
};

int main(){
    track test;
    const unsigned int dayLength = 24 * 3600;
    const unsigned int weekLength = dayLength * 7;    

    std::mt19937 gen(std::time(0));
    std::bernoulli_distribution playProb(0.5);
    std::bernoulli_distribution downProb(0.1);
    std::bernoulli_distribution likeProb(0.01);
    std::bernoulli_distribution faveProb(0.001);

    std::ofstream fakeRecord("fakeRecord.dat");
    std::ofstream fakeRecordDecay("fakeRecordDecay.dat");
    for(unsigned int i = 0; i < weekLength * 3; i += 3600){
        test.addPlay(playProb(gen));
        test.addDown(downProb(gen));
        test.addLike(likeProb(gen));
        test.addFave(faveProb(gen));    

        double baseScore = std::log(std::max<unsigned int>(1,test.baseScore()));
        double timePoint = static_cast<double>(i)/weekLength;        

        fakeRecord << timePoint << " " << baseScore << std::endl;
        if(timePoint > 1){
            double x = timePoint - 1;
            fakeRecordDecay << timePoint << " " << (baseScore * std::exp(-8*x*x)) << std::endl;
        }
        else
            fakeRecordDecay << timePoint << " " << baseScore << std::endl;
    }
    return 0;
}

结果:

衰变

这对你来说应该足够了。

于 2012-07-25T16:39:13.543 回答