问题标签 [druid]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
druid - Druid - 一组列的不同值
我需要使用 REST/JSON API 从我在 Druid 中的索引中获取一组不同的维度值。目前我正在使用以下聚合查询(尽管我不需要聚合),因为我找不到任何其他方法来获取不同的值,因为所有查询都需要聚合字段。
我认为这是一个常见的场景。有没有办法在没有聚合的情况下获得不同的列集?
当我使用聚合进行操作时,如果有一个没有聚合的聚合,那么这个聚合对性能(额外计数数据的网络 IO 除外)的影响有多大?
apache-spark - Spark + Druid Tranquility - 库版本冲突
使用 Druid Tranquility 运行 spark 作业时出现以下错误。
Druid Tranquility 使用的 jackson-databind (2.6.1) 版本比 spark 捆绑的版本更高。我正在使用 Druid Tranquility(0.6.4) 和 Spark(1.5.2) 的最新稳定版本。
如何解决这个问题?
- 强制 spark 使用作业提供的类,而不是 spark 中捆绑的类。如何?
- 用新版本的jackson-databind编译spark
- 强制宁静使用旧版本。(似乎不起作用,试图在 sbt 中排除)
- 还有什么办法吗?
performance - Apache Druid 批量摄取 - 索引任务的低性能
我阅读了以下教程: http ://druid.io/docs/latest/tutorials/tutorial-loading-batch-data.html 并使用 index_task 将数据放入 druid。我还发出了时间边界查询,一切正常。
但是,当我尝试插入大量数据(~ 2 000 000 条记录)时,它需要太多时间。
是否可以提高 index_task 的性能以及如何做到这一点?
是否可以通过:
段粒度的变化?
用 HadoopDruidIndexer 替换 index_task?
将数据拆分为更小的部分并同时插入?
增加节点数或每个节点的内存?
还要别的吗?
请帮忙。
druid - 如何通过宁静将数据插入德鲁伊
通过遵循http://druid.io/docs/latest/tutorials/tutorial-loading-streaming-data.html上的教程,我能够通过 Kafka 控制台将数据插入 druid
卡夫卡控制台
规范文件如下所示
示例/索引/wikipedia.spec
我通过实时开始
在 Kafka 控制台中,我粘贴并输入以下内容
然后我倾向于通过创建select.json
和运行来执行查询curl -X POST 'http://localhost:8084/druid/v2/?pretty' -H 'content-type: application/json' -d @select.json
选择.json
我能够得到以下结果。
看来我已经正确设置了德鲁伊。
现在,我想通过 HTTP 端点插入数据。根据Druid 如何实时输入数据?,似乎推荐的方法是使用tranquility
安宁
我通过以下方式启动了索引服务
conf/server.json看起来像
然后,我使用启动服务器
我执行发布到http://xx.xxx.xxx.xxx:8200/v1/post/wikipedia,content-type
等于application/json
我得到以下回复
貌似宁静收到了我们的数据,但是没能发给druid!
我尝试运行curl -X POST 'http://localhost:8084/druid/v2/?pretty' -H 'content-type: application/json' -d @select.json
,但没有得到我通过宁静插入的输出。
知道为什么吗?谢谢。
druid - Druid:Firehose 从数据库导入记录
与默认示例不同,我们有用于从 csv、tsv 等导入行的 firehose,我们是否有一个这样我们可以从数据库导入记录并插入到 druid 中?有什么想法吗?
这就是我的想法 -
我们可以扩展它以通过 jndi 数据源和其他一些数据源获得连接。这种实现有什么问题吗?
druid - 在德鲁伊中,如何将度量数据从一个数据源复制到另一个?
我在德鲁伊数据源“D1”中有时间段 20150101 到 20160101 的度量数据。是否可以将时间段 20150601-20160101 的该度量日的子集复制到德鲁伊中的另一个数据源“D2”。
hadoop - Hadoop - Kerberos 身份验证
我正在将 HDFS 配置为Druid的深度存储,并试图找出一种方法来传递 kerberos 密钥表文件进行身份验证。
是否有用于传递 keytab 文件位置的 Java System 参数?
azure - Hadoop 和 Druid 与 Jackson 库的不兼容问题
我在具有 HDP 洞察力 2.4.1.1-3 的 Azure 集群上运行 druid 0.9.0。hadoop 客户端是 2.7.1。在无数次尝试解决杰克逊的问题后,特别是:
我已经尝试了此处记录的所有解决方法
https://github.com/druid-io/druid/blob/master/docs/content/operations/other-hadoop.md
无济于事。
按照另一个面临相同问题的用户的建议,在对 jackson 依赖项进行着色后,重新编译不成功。
我尝试的最后一个案例是添加
到我的索引任务的 jobProperties 属性,结果如下:
我们正在尝试运行索引作业。
任何帮助将不胜感激。有没有人在相同的设置中取得任何成功?
druid - 德鲁伊聚合函数
我正在使用 druid 创建用于生成报告的 UI。对于脚本,我使用以下代码:
我还需要两个字段:
我还没有找到任何关于如何编写它们的问题。任何人都可以帮忙。
谢谢
storage - 删除德鲁伊的文件夹 var/tmp 是否安全
我正在测试Druid中的批量数据摄取。目前在我的安装中,有一个文件夹$DRUID/var/tmp
现在增长到近 1TB(TB,是的)。而且$DRUID/var/druid
只有 350GB。删除该$DRUID/var/tmp
文件夹是否安全?