我们收集有关我们网站流量的数据,这导致每天约有 5 万到 10 万次独立访问。
队列分析:
找出 24 小时内在网站上注册然后实际进入我们的购买页面的用户百分比(计算在注册后的第一、第二、第三等小时内有多少用户这样做的百分比)。
两个非常简短的示例文档:
- sessionId:我们用于执行计数的唯一标识符
- url:用于评估同类群组的 url
- 时间:事件的Unix时间戳
{ "sessionId": "some-random-id", "time": 1428238800000, (unix timestamp: Apr 5th, 3:00 pm) "url": "/register" }
{ "sessionId": "some-random-id", "time": 1428241500000, (unix timestamp: Apr 5th, 3:45 pm) "url": "/buy" }
如果我想在 6 个月内进行相同的聚合,并且想检查回访客户的执行群组?数据集太庞大了。
附带说明:我也对获得 100% 准确的结果不感兴趣,近似值足以进行趋势分析。
我们可以用 Druid 实现这一点吗?还是不适合这种分析?还有什么比做队列分析更好的吗?