问题标签 [druid]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4116 浏览

druid - Druid - 一组列的不同值

我需要使用 REST/JSON API 从我在 Druid 中的索引中获取一组不同的维度值。目前我正在使用以下聚合查询(尽管我不需要聚合),因为我找不到任何其他方法来获取不同的值,因为所有查询都需要聚合字段。

  1. 我认为这是一个常见的场景。有没有办法在没有聚合的情况下获得不同的列集?

  2. 当我使用聚合进行操作时,如果有一个没有聚合的聚合,那么这个聚合对性能(额外计数数据的网络 IO 除外)的影响有多大?

0 投票
3 回答
861 浏览

apache-spark - Spark + Druid Tranquility - 库版本冲突

使用 Druid Tranquility 运行 spark 作业时出现以下错误。

Druid Tranquility 使用的 jackson-databind (2.6.1) 版本比 spark 捆绑的版本更高。我正在使用 Druid Tranquility(0.6.4) 和 Spark(1.5.2) 的最新稳定版本。

如何解决这个问题?

  1. 强制 spark 使用作业提供的类,而不是 spark 中捆绑的类。如何?
  2. 用新版本的jackson-databind编译spark
  3. 强制宁静使用旧版本。(似乎不起作用,试图在 sbt 中排除)
  4. 还有什么办法吗?
0 投票
2 回答
2119 浏览

performance - Apache Druid 批量摄取 - 索引任务的低性能

我阅读了以下教程: http ://druid.io/docs/latest/tutorials/tutorial-loading-batch-data.html 并使用 index_task 将数据放入 druid。我还发出了时间边界查询,一切正常。

但是,当我尝试插入大量数据(~ 2 000 000 条记录)时,它需要太多时间。

是否可以提高 index_task 的性能以及如何做到这一点?

是否可以通过:

  • 段粒度的变化?

  • 用 HadoopDruidIndexer 替换 index_task?

  • 将数据拆分为更小的部分并同时插入?

  • 增加节点数或每个节点的内存?

  • 还要别的吗?

请帮忙。

0 投票
5 回答
6499 浏览

druid - 如何通过宁静将数据插入德鲁伊

通过遵循http://druid.io/docs/latest/tutorials/tutorial-loading-streaming-data.html上的教程,我能够通过 Kafka 控制台将数据插入 druid

卡夫卡控制台

规范文件如下所示

示例/索引/wikipedia.spec

我通过实时开始

在 Kafka 控制台中,我粘贴并输入以下内容

然后我倾向于通过创建select.json和运行来执行查询curl -X POST 'http://localhost:8084/druid/v2/?pretty' -H 'content-type: application/json' -d @select.json

选择.json

我能够得到以下结果。

看来我已经正确设置了德鲁伊。

现在,我想通过 HTTP 端点插入数据。根据Druid 如何实时输入数据?,似乎推荐的方法是使用tranquility

安宁

我通过以下方式启动了索引服务

conf/server.json看起来像

然后,我使用启动服务器

我执行发布到http://xx.xxx.xxx.xxx:8200/v1/post/wikipediacontent-type等于application/json

我得到以下回复

貌似宁静收到了我们的数据,但是没能发给druid!

我尝试运行curl -X POST 'http://localhost:8084/druid/v2/?pretty' -H 'content-type: application/json' -d @select.json,但没有得到我通过宁静插入的输出。

知道为什么吗?谢谢。

0 投票
1 回答
267 浏览

druid - Druid:Firehose 从数据库导入记录

与默认示例不同,我们有用于从 csv、tsv 等导入行的 firehose,我们是否有一个这样我们可以从数据库导入记录并插入到 druid 中?有什么想法吗?

这就是我的想法 -

我们可以扩展它以通过 jndi 数据源和其他一些数据源获得连接。这种实现有什么问题吗?

0 投票
1 回答
691 浏览

druid - 在德鲁伊中,如何将度量数据从一个数据源复制到另一个?

我在德鲁伊数据源“D1”中有时间段 20150101 到 20160101 的度量数据。是否可以将时间段 20150601-20160101 的该度量日的子集复制到德鲁伊中的另一个数据源“D2”。

0 投票
1 回答
484 浏览

hadoop - Hadoop - Kerberos 身份验证

我正在将 HDFS 配置为Druid的深度存储,并试图找出一种方法来传递 kerberos 密钥表文件进行身份验证。

是否有用于传递 keytab 文件位置的 Java System 参数?

0 投票
1 回答
325 浏览

azure - Hadoop 和 Druid 与 Jackson 库的不兼容问题

我在具有 HDP 洞察力 2.4.1.1-3 的 Azure 集群上运行 druid 0.9.0。hadoop 客户端是 2.7.1。在无数次尝试解决杰克逊的问题后,特别是:

我已经尝试了此处记录的所有解决方法

https://github.com/druid-io/druid/blob/master/docs/content/operations/other-hadoop.md

无济于事。

按照另一个面临相同问题的用户的建议,在对 jackson 依赖项进行着色后,重新编译不成功。

我尝试的最后一个案例是添加

到我的索引任务的 jobProperties 属性,结果如下:

我们正在尝试运行索引作业。

任何帮助将不胜感激。有没有人在相同的设置中取得任何成功?

0 投票
4 回答
4533 浏览

druid - 德鲁伊聚合函数

我正在使用 druid 创建用于生成报告的 UI。对于脚本,我使用以下代码:

我还需要两个字段:

我还没有找到任何关于如何编写它们的问题。任何人都可以帮忙。

谢谢

0 投票
1 回答
361 浏览

storage - 删除德鲁伊的文件夹 var/tmp 是否安全

我正在测试Druid中的批量数据摄取。目前在我的安装中,有一个文件夹$DRUID/var/tmp现在增长到近 1TB(TB,是的)。而且$DRUID/var/druid只有 350GB。删除该$DRUID/var/tmp文件夹是否安全?