我正在为网站上的类别的个人评分构建评分器。
输入:用户 ID、类别
输出:用户 ID、score_cat_1、score_cat_2 等...
分数在 10 上给出。
我的计划是首先为每个用户计算每个类别的点击次数,然后将结果划分为分位数(可能是一千个),最后对每个类别的分位数使用聚类算法将它们聚类为 10 个聚类,将排序,并给出率。
这个想法是将靠近的分位数分组在同一个集群中,并获得更有趣的分数,而不是仅仅说“10% 最好的点击者得到 10,接下来的 10% 得到 9,等等......
我的问题如下:
1-你认为这是个好主意吗?有没有更自然、更准确的方法呢?
2-集群可能太小,我不能保证每个集群上的基数。