hash - 为什么我的标识符冲突率增加？

Question

我使用 IP + 用户代理的哈希作为访问网站的每个用户的唯一标识符。这是一个简单的方案，但有一个非常明显的缺陷：标识符冲突。多个人使用相同的 IP + 用户代理组合浏览互联网。由相同哈希标识的唯一用户将被识别为单个用户。我想知道这个标识符错误的发生频率。

为了计算频率，我创建了一个两步漏斗，理论上应该以零百分比转换：publish.click> signup.complete。（用户必须在发布之前注册。）运行这个漏斗 1 天给我一个0.37%的转化率。我想，这个数字是我对该漏斗的唯一标识符冲突概率。查看原始数据（大约 10,000 行长的表格），我证实了这个假设。publish.click37 次注册是由与在漏斗期间（1 天）完成的老用户相同的哈希标识的新用户完成的。（我知道这一点是因为散列在漏斗中匹配，而在注册时分配的 UID 没有。）

我以为我已经想通了...

但后来我运行了 1 周的漏斗，转化率提高到了0.78%。5个月，转化率跃升至1.71%。

这里有什么可以玩的？为什么我的转化（碰撞）率随着实验周期的延长而增加？

我认为这可能与唯一用户通常只触发signup.complete一次这一事实有关，而他们可能会publish.click在一段时间内触发多次。然而，我正在努力将这个假设变成文字。

任何帮助，将不胜感激。

score 1 · Accepted Answer

从最简单的开始可能的解释：

碰撞率相对稳定，但您的初始测量并不重要，因为您获得的阳性数量很少。37不是很多。在这种情况下，您有两个不错的数据点。
碰撞率不是很稳定，并且随着使用的变化（在工作中、在家中、使用移动设备等）而随时间变化。您得到三个显示上升趋势的数据点的事实只是一个巧合。这并不让我感到惊讶，因为渠道转化率会随着时间的推移而发生显着变化，尤其是每周一次。还有我们没有抓到的机器人。
如果您真的获得了多次发布，并且注册绝对是一次性的，那么您的冲突率会随着仅注册但未发布的用户最终发布而增加。这不会增加他们的漏斗转化率，但会为其他人提供额外的发布以进行转化。从本质上讲，每增加一次发布都会增加我作为新用户对之前的发布事件感到困惑的可能性。

来自 OP 的注释。假设 3 证明是正确的假设。

hash - 为什么我的标识符冲突率增加？

1 回答 1

Related

Reference