问题标签 [druid]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何在 Druid io 中添加 Post Aggregation 值字段作为 Metric
我正在使用德鲁伊 io 0.9.0。我正在尝试添加一个后聚合字段作为指标规范。我的意图是显示后聚合字段的值,类似于如何显示度量(度量)(在 Druid io 中使用 Pivot)。
我的德鲁伊 io 架构文件是
使用 java 客户端发送字段的我的代码。
谁能指出我的错误。
druid - 德鲁伊中的时间戳规范
我的数据有时间戳,如mm/dd/yyyy hh:mm:ss
. 我正在使用以下规范进行索引:
它给出了错误Caused by: com.metamx.common.parsers.ParseException: Unparseable timestamp found!
。
我们如何处理这种数据?
druid - 是否有可能在德鲁伊中有另一个时间戳作为维度?
是否可以在其中包含 2 个(或多个)时间图的 Druid 数据源?我知道 Druid 是基于时间的数据库,我对这个概念没有任何问题,但我想添加另一个维度,我可以像使用时间戳一样使用它
例如用户保留:指标肯定是指定到某个日期,但我还需要根据用户注册日期创建群组,并将这些日期汇总到几周、几个月或仅过滤到某个时间段......
如果不支持该功能,是否有任何插件?任何肮脏的解决方案?
druid - 逗号分隔字符串上的多值维度
我们有一个以逗号分隔的字符串形式保存值的维度(例如:“t1,t2,t3”),是否有可能将此维度视为多值维度而不将它们存储为 JSON 数组?
注意:如果我们必须更正它们并加载为 JSON 数组,则必须修复过去 6 个月的所有历史数据
谢谢, 萨西什
hadoop - 德鲁伊摄取失败
我正在遵循德鲁伊网站上的步骤:http: //druid.io/docs/latest/tutorials/quickstart.html
但由于某种原因,它一直给我这个错误:
有谁知道这是什么原因?即使我去控制台:http://localhost:8090/console.html它说我的摄取失败。
hadoop - 在 DRUID 中应该如何格式化 TSV 文件?
我很好奇当我们使用 DRUID 从本地 TSV 文件中摄取数据时,TSV 文件应该是什么样子。
它应该是这样的:
请注意,这仅用于测试:
快速启动/sample_data.tsv 文件:
姓名 姓氏 电子邮件 时间 Bob Jones bobj@gmail.com 1468839687 Billy Jones BillyJ@gmail.com 1468839769
这部分是我的尺寸:姓名姓氏电子邮件
这部分是我的实际数据: Bob Jones bobj@gmail.com 1468839687 Billy Jones BillyJ@gmail.com 1468839769
我对我的规范文件也有一些疑问,因为我无法在文档上找到它们的答案。如果有人可以为我回答,我将不胜感激:)!
1)
我注意到在示例规范中,他们在最顶部添加了“type”:“index_hadoop”行。如果我从本地计算机的 quickstart 目录中提取 TSV 文件,我会为该类型添加什么内容?另外,我在哪里可以了解我应该在文档中为这个“类型”键输入的不同值?我没有得到解释。
2)
ioConfig 中还有一个类型变量:“type”:“hadoop”。如果我从本地计算机的 quickstart 目录中提取 TSV 文件,我会为该类型添加什么内容?
3)
对于 timestampSpec,我的 TSV 文件中的时间是 GMT。有什么办法可以将其用作格式。既然我读了你应该将它转换为UTC,在将数据发布到霸主的过程中是否有办法转换为UTC?或者我是否必须将所有这些 GMT 时间格式更改为 UTC,类似于:“time”:“2015-09-12T00:46:58.771Z”。
json - 如何在 Druid 中格式化 TSV 文件
我正在尝试使用此摄取斑点在德鲁伊中加载 TSV:
最新更新的规格如下:
}
如果我的架构如下所示:
实际数据集如下所示:
这是 TSV 的上述数据集中的列应该如何格式化^^?Likename email age
应该是第一个(列),然后是实际数据。我很困惑德鲁伊如何知道如何将列映射到 TSV 格式的实际数据集。
sql - 如何在 GROUP BY Druid 返回的结果中执行 SELECT?
我很难将下面这个简单的 SQL 查询转换为 Druid:
所以到目前为止我想出了这个查询:
上面的查询运行,但似乎 Druid 数据源中的 groupBy 甚至没有被评估,因为我在输出中看到名字不是 Mary 的人。有人对如何使这项工作有任何意见吗?
apache-kafka - 德鲁伊模式概念 - 在同一个规范文件中使用多个数据源或解析器
我有以下场景,1个Apache Kafka主题,其中推送了多种类型的事件。德鲁伊将从该主题中获取并根据时间戳进行聚合。
比如说下面是kafka主题中的消息,
类型 1,
{“时间戳”:“07-08-2016”,“服务”:“注册”,“no_of_events”:8}
{“时间戳”:“08-08-2016”,“服务”:“注册”,“no_of_events”:10}
类型 2,
{“时间戳”:“08-08-2016”,“用户”:“xyz”,“no_of_events”:3}
{“时间戳”:“08-08-2016”,“用户”:“abc”,“no_of_events”:2}
Q1:我可以在同一个规范文件中编写两个解析器,指向同一个主题的事件吗?如果是,规范文件的结构是什么?
欢迎对设计提出任何其他建议:)
Q2:为了更好地理解,spec 文件中是否可以有多个数据源?
提前致谢!!
hadoop - 在 Caravel 的 Hive 表中建模数据
我很好奇是否有一种方法可以对 Caravel 中的 Hive 表中的数据进行建模。
类似于 caravel 如何连接到 Druid 集群并在 Druid 中的数据上显示 UI,有没有办法使用 JDBC 对 Caravel 中的 Hive 中的数据进行建模?