为了获得某种度量的分布,我们在 Cassandra 中使用计数器,即类似于 mysql 中的 group by。但是,如果我想要测量的唯一分布 - 我该怎么做?
假设我需要访问网页的用户的每日分布 - 计数器非常方便。键是天,值是计数器。但是对于同一个网页 - 如果我需要唯一的用户分布,我如何使用 Cassandra 来实现?
我可以通过各种方式实现它 - 写前读取、离线处理等。我还听说过位图/超级日志日志计数器等。我可以在 Cassandra 中/上使用的最简单的解决方案是什么,以获得独特的每日用户分布. 我每天有数百万个事件。
例子:
在 25/08/2013 上说 - 这是我的网页点击次数 - user1, user2, user1, user3
2013 年 8 月 26 日 - 用户 1,用户 2
2013 年 8 月 27 日 - 用户 2、用户 3、用户 4
2013 年 8 月 28 日 - 用户 1、用户 2、用户 1、用户 3
我的输出应该是
25/08/2013 - 3 个独立用户
26/08/2013 - 2 个独立用户
27/08/2013 - 3 个独立用户
28/08/2013 - 3 个独立用户
即,天数与独立用户数。
谢谢