我有一组 Facebook 页面,我每天都在为这些页面记录“喜欢”的次数。
我想找出那些增长最快的。问题是我想知道如何去除点赞数少的页面和点赞数多的页面的“噪音”。
我在这里尝试做的事情有什么通用技术或方法吗?
我有一组 Facebook 页面,我每天都在为这些页面记录“喜欢”的次数。
我想找出那些增长最快的。问题是我想知道如何去除点赞数少的页面和点赞数多的页面的“噪音”。
我在这里尝试做的事情有什么通用技术或方法吗?
或多或少在统计上正确(且简单)的答案是:
假设第一次测量是 x 喜欢,第二次测量是 y 喜欢,
然后估计增长的自然对数由下式给出
log(y / x),误差估计为 sqrt(1 / x + 1 / y)
但由于您对增长的保守估计感兴趣,您应该使用大约 5% 的置信区间。因此,我建议使用以下功能对您的数据集进行排名。对数(y / x) - 2 * sqrt(1 / x + 1 / y)
例如:
从 1 增长到 10 将获得 0.2 的分数
从 100 增长到 400 将获得 1.16 的分数
从 10000 增长到 15000 将获得 0.38 的分数
该估计器的重要属性之一是,从 10000 到 100000 的增长将排名高于从 1000 到 10000 的增长,而从 1000 增长到 10000 的排名又将高于从 100 到 1000 的增长等...
一种可能性是创建一个综合衡量增长的指标,同时考虑百分比和绝对数字。
我建议取第 1 天的点赞数的以 10 为底的对数,然后将其乘以增长百分比,得出我称之为“增长排名”的值。
如果您查看“最终指标”提供了您认为重要的增长数字和您认为不重要的较小增长数字。
您需要对增长百分比应用某种权重,我建议使用 log(B/10),因此您排名的指标是:
score = log(B/10) * C
您可以在那里试验常数项以及对数基数。现在一个很好的工具是谷歌,例如在谷歌搜索中输入这个来查看权重函数图:
y = log(x/10)
或者获取 gnuplot 的副本。