我有大量数据表示为(例如)-
用户名 | 性别 | 位置 | 用户类型
根据用例,可能会有更多列。该位置由密码表示。
我最近阅读了有关 HyperLogLog 和 Redis 实现的信息。因此,例如,我可以方便地统计男性用户或某种“类型”的用户,我可以合并这些超级日志集来回答以下问题 -
男性和 A 类型的唯一用户数
问题是当我必须处理像位置这样的列时。我无法为每个可能的密码存储集合。所以像这样的问题 -
属于密码 A 和 B 的男性唯一用户数
用这种方法很难回答。
使用 HyperLogLog 或 redis 不是约束。只要能解决问题,我愿意使用任何可用的工具。