1

我有大量数据表示为(例如)-

用户名 | 性别 | 位置 | 用户类型

根据用例,可能会有更多列。该位置由密码表示。

我最近阅读了有关 HyperLogLog 和 Redis 实现的信息。因此,例如,我可以方便地统计男性用户或某种“类型”的用户,我可以合并这些超级日志集来回答以下问题 -

男性和 A 类型的唯一用户数

问题是当我必须处理像位置这样的列时。我无法为每个可能的密码存储集合。所以像这样的问题 -

属于密码 A 和 B 的男性唯一用户数

用这种方法很难回答。

使用 HyperLogLog 或 redis 不是约束。只要能解决问题,我愿意使用任何可用的工具。

4

1 回答 1

0

最好的选择是使用允许任意查询的日志分析工具,例如 Splunk 或其竞争对手之一

应该注意的是,这个问题的一般情况(您允许对大量收集的数据进行任意查询,而且数据是高维的)非常困难。检查您的要求是否可以减少是一个好主意(即,实际上是否有少量您想要计算的特定条件?如果是,只需为它们制作专用计数器)。

于 2015-12-24T11:03:20.263 回答