我使用 IP + 用户代理的哈希作为访问网站的每个用户的唯一标识符。这是一个简单的方案,但有一个非常明显的缺陷:标识符冲突。多个人使用相同的 IP + 用户代理组合浏览互联网。由相同哈希标识的唯一用户将被识别为单个用户。我想知道这个标识符错误的发生频率。
为了计算频率,我创建了一个两步漏斗,理论上应该以零百分比转换:publish.click
> signup.complete
。(用户必须在发布之前注册。)运行这个漏斗 1 天给我一个0.37%的转化率。我想,这个数字是我对该漏斗的唯一标识符冲突概率。查看原始数据(大约 10,000 行长的表格),我证实了这个假设。publish.click
37 次注册是由与在漏斗期间(1 天)完成的老用户相同的哈希标识的新用户完成的。(我知道这一点是因为散列在漏斗中匹配,而在注册时分配的 UID 没有。)
我以为我已经想通了...
但后来我运行了 1 周的漏斗,转化率提高到了0.78%。5个月,转化率跃升至1.71%。
这里有什么可以玩的?为什么我的转化(碰撞)率随着实验周期的延长而增加?
我认为这可能与唯一用户通常只触发signup.complete
一次这一事实有关,而他们可能会publish.click
在一段时间内触发多次。然而,我正在努力将这个假设变成文字。
任何帮助,将不胜感激。