druid - 是否有可能在德鲁伊中有另一个时间戳作为维度？

Question

是否可以在其中包含 2 个（或多个）时间图的 Druid 数据源？我知道 Druid 是基于时间的数据库，我对这个概念没有任何问题，但我想添加另一个维度，我可以像使用时间戳一样使用它

例如用户保留：指标肯定是指定到某个日期，但我还需要根据用户注册日期创建群组，并将这些日期汇总到几周、几个月或仅过滤到某个时间段......

如果不支持该功能，是否有任何插件？任何肮脏的解决方案？

score 8 · Accepted Answer

尽管我宁愿等待正式实现对 druid 中时间戳维度的完全支持，但我发现了一个我一直在寻找的“肮脏”黑客。

数据源模式

首先，我想知道每天有多少用户登录，并且能够按日期/月/年群组汇总

这是我使用的数据模式：

"dataSchema": {
  "dataSource": "ds1",
  "parser": {
    "parseSpec": {
      "format": "json",
      "timestampSpec": {
        "column": "timestamp",
        "format": "iso"
      },
      "dimensionsSpec": {
        "dimensions": [
            "user_id",
            "platform",
            "register_time"
        ],
        "dimensionExclusions": [],
        "spatialDimensions": []
      }
    }
  },
  "metricsSpec": [
    { "type" : "hyperUnique", "name" : "users", "fieldName" : "user_id" }
  ],
  "granularitySpec": {
    "type": "uniform",
    "segmentGranularity": "HOUR",
    "queryGranularity": "DAY",
          "intervals": ["2015-01-01/2017-01-01"]
  }
},

所以示例数据应该看起来像（每条记录都是登录事件）：

{"user_id": 4151948, "platform": "portal", "register_time": "2016-05-29T00:45:36.000Z", "timestamp": "2016-06-29T22:18:11.000Z"}
{"user_id": 2871923, "platform": "portal", "register_time": "2014-05-24T10:28:57.000Z", "timestamp": "2016-06-29T22:18:25.000Z"}

如您所见，我计算这些指标的“主要”时间戳是时间戳字段，其中register_time只是字符串中的维度 - ISO 8601 UTC 格式。

聚合

现在，对于有趣的部分：由于时间格式提取功能，我已经能够按时间戳（日期）和register_time （再次日期）进行聚合

查询看起来像这样：

{
    "intervals": "2016-01-20/2016-07-01",
    "dimensions": [
        {
            "type": "extraction",
            "dimension": "register_time",
            "outputName": "reg_date",
            "extractionFn": {
                "type": "timeFormat",
                "format": "YYYY-MM-dd",
                "timeZone": "Europe/Bratislava" ,
                "locale": "sk-SK"
            }
        }
    ],
    "granularity": {"timeZone": "Europe/Bratislava", "period": "P1D", "type": "period"},
    "aggregations": [{"fieldName": "users", "name": "users", "type": "hyperUnique"}],
    "dataSource": "ds1",
    "queryType": "groupBy"
}

过滤

过滤解决方案基于JavaScript 提取函数，我可以使用它将日期转换为 UNIX 时间并在（例如）绑定过滤器中使用它：

{
    "intervals": "2016-01-20/2016-07-01",
    "dimensions": [
        "platform",
        {
            "type": "extraction",
            "dimension": "register_time",
            "outputName": "reg_date",
            "extractionFn": {
                "type": "javascript",
                "function": "function(x) {return Date.parse(x)/1000}"
            }
        }
    ],
    "granularity": {"timeZone": "Europe/Bratislava", "period": "P1D", "type": "period"},
    "aggregations": [{"fieldName": "users", "name": "users", "type": "hyperUnique"}],
    "dataSource": "ds1",
    "queryType": "groupBy"
    "filter": {
        "type": "bound",
        "dimension": "register_time",
        "outputName": "reg_date",
        "alphaNumeric": "true"
        "extractionFn": {
            "type": "javascript",
            "function": "function(x) {return Date.parse(x)/1000}"
        }
    }
}

我尝试使用 javascript 过滤器“直接”过滤它，但我无法说服 druid 返回正确的记录，尽管我已经使用各种 JavaScript REPL 对其进行了仔细检查，但是嘿，我不是 JavaScript 专家。

score 3 · Accepted Answer

不幸的是，德鲁伊只有一个时间戳列可用于汇总，而且目前德鲁伊将所有其他列视为字符串（当然指标除外），因此您可以添加另一个带有时间戳值的字符串列，但唯一的事情你可以用它做过滤。我想你也许可以用这种方式破解它。希望在未来德鲁伊将允许不同类型的列，也许时间戳将是其中之一。

score 0 · Accepted Answer

另一种解决方案是为时间戳添加 longMin 类型的度量并将纪元时间存储在该字段中，或者将日期时间转换为数字并存储它（例如 2021 年 3 月 31 日 08:00 到 310320210800）

score 0 · Accepted Answer

至于 Druid 0.22，它在文档中说明二级时间戳应该作为 long 类型的维度进行处理/解析。辅助时间戳可以在摄取时使用 tranformSpec 解析为 long，如果需要，可以在查询时间链接时转换回来。

druid - 是否有可能在德鲁伊中有另一个时间戳作为维度？

4 回答 4

Related

Reference