问题标签 [druid]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - UnresolvedAddressException 被德鲁伊经纪人击中
我是德鲁伊的新手。我已经使用Imply IAP 包设置了一个集群。使用Tranquility将事件从 Kafka 摄取到 Druid 中。我可以看到 Tranquility 正在接受这些事件 - 以下日志语句是我用来验证的:
但是,当我尝试在数据源上运行 timeBoundary 查询时,代理似乎遇到了异常。
以下是异常堆栈跟踪(从代理的日志中复制):
因为我不确定我需要查看哪些日志/进程来进一步调试,所以我一直被困在这一点上。
问题:有人可以解释我需要如何调试这样的问题 - 即我需要查看的任何特定日志等?
顺便说一句,我正在使用一个单独的 3 节点 zookeeper 集群和一个单节点 mysql 实例作为 druid 集群的外部依赖项。
如果我需要提供更多信息,请告诉我。
谢谢,吉廷
lookup - 注册的查找在德鲁伊中不起作用
我现在正在使用 druid 很短的时间,并且正在测试注册的查找功能。
我已经在 http://:/druid/coordinator/v1/lookups 下创建了查找,如下所示:
据我了解,对于下面查询部分中声明的维度“home_post_code”,此映射应将所有出现的值“13210”替换为“纽约州锡拉丘兹”:
问题是当我执行查询时,“home_post_code_description”列中的值没有根据映射替换。
我能够在 http://:/druid/listen/v1/lookups 中列出查找,所以我相信它已正确注册。
我在这里想念什么?我应该更改任何配置吗?
提前致谢。
indexing - Druid / Tranquility (server) / Ingestion / Indexing 尚未完成
我使用 Druid 0.9.1.1 和 Tranquility 0.8.0,并按照此处的快速入门步骤进行操作:http: //druid.io/docs/0.9.1.1/tutorials/quickstart.html
以下命令成功:
它返回此响应:
...通过德鲁伊控制台,我可以看到创建了索引任务:
问题是:数据源(命名指标,根据我在架构中的规范)还没有出现,现在已经 20 分钟了。索引仍处于 RUNNING 状态。
为什么需要这么长时间?所以我检查了这个:http ://druid.io/docs/latest/ingestion/stream-push.html 。快进到“任务创建”部分,它说:
segmentGranularity 是每个任务产生的段所覆盖的时间段。例如,“小时”的segmentGranularity 将产生创建每个覆盖一小时的段的任务。
这可能是我没有看到我的数据源的原因(我的架构规范中的 segmentGranularity 的值是 1 小时)?
如果我错了,请纠正我。
time-series - 非时间序列数据的德鲁伊
对于数据在生成后立即发送到 Druid 的情况,一切都很好(就像在物联网中一样)。爱它。
但现在我有不同的情况,源于迟到的数据输入。
最终用户可以离线(失去互联网连接),数据存储在她的手机中,只有在她重新上线后才会发送给 Druid。
这意味着,当她恢复互联网时,发送给 Druid 的数据(例如通过 Tranquility 服务器)将被 Druid 拒绝(因为 Druid 实时不接受过去的数据)。
当然,我可以将时间戳设置为数据发送到服务器的时间。但这会歪曲报告......,除非......,如果我添加另一个字段(比如说:generate_ts),并将其声明为另一个维度。
但是,我不会从您在 Druid (?) 中免费获得的基于时间的自动汇总中受益。我将不得不使用 groupBy (将 generate_ts 作为维度之一),如下所示:
我的问题是:
- 该方法有效吗?
- 如果是:罚款是多少?(我想这将是性能,但有多糟糕?)
谢谢,拉卡
--
针对以下 Ramkumar 的回复,后续问题:
我还是不太明白这批摄取:
假设事件 A。它在时间戳 3 生成,直到时间戳 15 才发送到服务器。
当它在时间戳 15 发送时,它具有以下值:{ts: 15, generated_ts: 3, metric1: 12, dimension1: 'a'}
他们的时间戳键是“ts”。
这是不准确的,理想的情况是 {ts: 3, generated_ts: 3, metric1: 12, dimension1: 'a'},但我必须指定 15 作为inserted_ts,以便 Tranquility 接受它。
现在,在批量摄取期间,我想修复它,现在它具有正确的 ts {ts: 3, generated_ts: 3, metric1: 12, dimension1: 'a'}。
问题:那我会有重复的事件吗?
或者......(我怀疑):指定时间间隔的批量摄取基本上会替换该间隔内的所有数据?(我希望是这样,那我就不用担心数据重复了)
附加说明(刚刚):我遇到了这个:https ://github.com/druid-io/tranquility/blob/master/docs/overview.md#segment-granularity-and-window-period
说的是:
我们在 Metamarkets 的方法是通过 Tranquility 实时发送我们所有的数据,但也通过在 S3 中存储副本并跟进夜间 Hadoop 批处理索引作业以重新摄取数据来降低这些风险。这使我们能够保证最终,每个事件在 Druid 中只表示一次。
所以......这是一次重新摄取,其含义(我猜)是完全替代的,对吧?
cloudera-cdh - 使用 Hadoop 2.6.0-cdh5.7.1 (map-reduce) 在 druid 中加载批处理数据时出错
我构建了druid,在其中加载批量数据时出错,如下:
然后按照官方的解决方案,做了一些操作,但也没什么用:
编辑 Druid 的 pom.xml 依赖项以匹配我的 Hadoop 版本中的 Jackson 版本并重新编译 Druid
/li>使用 maven-shade-plugin 制作一个胖罐 druid-services-0.9.1.1-selfcontained.jar
/li>
执行这个命令,我得到:
有没有人有同样的问题。任何人都可以帮忙吗?
docker - 建筑德鲁伊卡住了,无法前进
我正在尝试使用pulsarIO/dockerfiles上提供的 docker 文件构建druid
但它并没有完全构建并在某些时候卡住:
堆栈看起来像这样:
我无法确切了解问题所在!如果我尝试运行
命令查看正在运行的容器我在那里看不到德鲁伊!
任何帮助表示赞赏!
javascript - 使用javascript解析数据时druid kafka摄取失败
我在 kafka 中有特定格式的消息。它们是插入符号 ^ 分隔的。现在要使用宁静来解析这个,我正在使用下面的解析规范。
但是,当我通过 kafka 生产者插入一行并检查宁静日志时。它显示droppedCount=1
. 所以它正在丢弃消息。我在浏览器中检查了上面的javascript函数。它工作正常。这里有什么问题?
elasticsearch - Druid 和 ElasticSearch 有什么区别?两者有什么优势?
我对 Druid 很陌生,我没有得到关于与 ElasticSearch 比较的答案。我找到了这个链接:druid vs Elasticsearch,但它没有给出差异和优势。
谁能解释一下或者给我一些我在谷歌上找不到的链接?
提前致谢。
Ĵ
rabbitmq - 德鲁伊 RabbitMQ Firehose
我正在尝试设置 druid 以使用 rabbitmq firehose,但从 Tranquility 收到以下错误
java.lang.IllegalArgumentException:无法将类型 id 'rabbitmq' 解析为 [简单类型,类 io.druid.data.input.FirehoseFactory] 的子类型
我做了以下 1. 安装 Druid 2. 下载扩展 druid-rabbitmq 3. 将 druid-rabbitmq 复制到 druid 扩展 4. 将 amqp-client jar 复制到 druid lib 5. 将 druid-rabbitmq 添加到 common.runtime 中的 druid.extensions.loadList .properties 6. 在 Tranquility server.json 配置中添加了 firehose 配置
druid - 从java应用程序查询德鲁伊
我是德鲁伊的新手。我想从我的 java 应用程序中查询一个远程 druid 集群。我在 druid-user google 组中读到我们可以使用 io.druid.client.DirectDruidClient 。有人可以帮助我或指出一个具有相同示例的资源吗?