0

我们收集有关我们网站流量的数据,这导致每天约有 5 万到 10 万次独立访问。

队列分析:

找出 24 小时内在网站上注册然后实际进入我们的购买页面的用户百分比(计算在注册后的第一、第二、第三等小时内有多少用户这样做的百分比)。

两个非常简短的示例文档:

  • sessionId:我们用于执行计数的唯一标识符
  • url:用于评估同类群组的 url
  • 时间:事件的Unix时间戳

{ "sessionId": "some-random-id", "time": 1428238800000, (unix timestamp: Apr 5th, 3:00 pm) "url": "/register" }

{ "sessionId": "some-random-id", "time": 1428241500000, (unix timestamp: Apr 5th, 3:45 pm) "url": "/buy" }

如果我想在 6 个月内进行相同的聚合,并且想检查回访客户的执行群组?数据集太庞大了。

附带说明:我也对获得 100% 准确的结果不感兴趣,近似值足以进行趋势分析。

我们可以用 Druid 实现这一点吗?还是不适合这种分析?还有什么比做队列分析更好的吗?

4

1 回答 1

0

我认为你可以用德鲁伊和数据草图来做到这一点。看看最后一个例子是这个页面 如果您想使用这种近似方法,您可以查看此处以了解近似值的边界误差以及您可以通过内存换取准确性的权衡。

于 2017-05-15T00:11:03.390 回答