我刚刚开始使用 Druid,特别是 RDruid,由于我们的数据集非常大,我想从数据库中提取一个更小的随机样本。
使用 RDruid 我有一个查询,如下所示:
res2 = druid.query.groupBy(
url = druid.url("hostname", port=8080),
dataSource = "playback",
intervals = interval(
fromISO("2013-09-20T00:00:00"),
now()
),
dimensions = list(dimension("platformInfo_deviceType"), dimension("isp")),
granularity="hour",
aggregations = list(
sum(metric("streamStartCount"))
)
)
我想让它在基础数据的随机部分上构建每小时/每分钟的汇总。
这甚至可能吗?也许我可以尝试为基础数据记录分配一个随机的 4 位数字/字符串,并应用一个过滤器,该过滤器只汇总具有匹配规则的记录。
例如,如果随机字符串 > 8888,那么它将选择 8889 到 9999 之间的所有记录。
有任何想法吗?