需要能够报告唯一身份访问者,但希望避免预先计算每个可能的键排列并创建多个表。
作为一个简单的示例,假设我需要在具有以下列的表中报告每月唯一身份
- 日期(月/年)
- page_id
- country_id
- device_type_id
- 每月唯一
在 Druid 和 Redis 中,Hyperloglog 数据类型会解决这个问题(假设可以接受小的误差范围),我将能够通过任何维度组合运行查询并接收对唯一性的可行估计。
我能在 PostgreSQL 世界中找到的最接近的是 postgresql-hll 插件,但它似乎适用于 PostgreSQL 9.0+。
有没有一种方法可以在 Redshift 中表示这一点,而无需预先计算或存储访问者 ID(大大增加了表大小,但允许使用 RedShift 的“近似计数”hll 实现)?
注意:RedShift 是首选平台,但我已经知道其他自托管 PostgreSQL 分支可以支持这一点,例如 CitusDB。寻找使用 RedShift 执行此操作的方法。