问题标签 [apache-drill]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
34853 浏览

apache-spark - 快速 Hadoop 分析(Cloudera Impala vs Spark/Shark vs Apache Drill)

我想对 HDFS 中的数据进行一些“近乎实时”的数据分析(类似 OLAP)。
我的研究表明,与 Apache Hive 相比,上述三个框架报告了显着的性能提升。有没有人对其中任何一个有一些实际经验?不仅关乎性能,还关乎稳定性?

0 投票
1 回答
291 浏览

hive - 蜂巢和钻头如何整合?

与高延迟的 Hive 相比,Drill 看起来像是一个有趣的工具,用于 ad-hoc 向下钻取查询。
似乎这两者之间应该有一个不错的整合,但我找不到它。
假设今天我所有的工作都是在 Hive/Shark 上完成的,我如何将它与 Drill 集成?
我必须来回切换到 Drill 引擎吗?
我正在寻找类似于 Shark 和 Hive 的集成。

0 投票
1 回答
120 浏览

apache - 编译 Apache Drill 时有些类无法解析?

我根据 wiki 规范构建了 Drill 项目,但是该项目有一些错误。某些类(BigIntVector、BitHolder、BigIntHolder)无法解析,并且工作区并不真正包含这些类文件。关于发生了什么的任何建议?

0 投票
3 回答
11945 浏览

json - 将 JSON 对象文件转换为 Parquet 文件

动机:我想将数据加载到 Apache Drill。我知道 Drill 可以处理 JSON 输入,但我想看看它在 Parquet 数据上的表现。

有什么方法可以做到这一点,而无需先将数据加载到 Hive 等中,然后使用其中一个 Parquet 连接器生成输出文件?

0 投票
1 回答
672 浏览

json - 从存储在 hbase 中的 json 对象中查询多个列

我们有一个 json 数据存储在一个列族下,它有几个名称/值对。我们使用不同的名称/值组合查询这些数据,这些查询并不特别倾向于任何名称/值对(这使得很难将它们分解为列族)。

  1. 提高这些查询性能的最佳方法是什么?诸如二级索引或黑斑羚或凤凰之类的东西会有所帮助吗?
  2. 将它们分成多个列族会有所帮助吗?考虑到 hbase 最适合 2 或 3 个列族,不确定这是否是正确的做法。
  3. 什么是存储嵌套数据或 json 数据以实现良好查询性能的好系统?像apache钻这样的东西会有帮助吗?
0 投票
1 回答
498 浏览

mongodb - 这是 Spark/Apache Drill 的用例吗?

我有两种数据-

1) 无模式(不完全无模式,但列会随着时间的推移不断增加,我们不希望我们的加载/发布作业在模式更改时发生更改)。此数据现在存储在 key-val storage 中。密钥数约为 1000。对数约为 7 亿

2) RDBMS 表 - 一组表,每个表都有数百万行。

我需要创建一个数据存储,允许对所有上述数据进行分析(最好使用 SQL)。我正在研究这个问题的一些解决方案,并且觉得 Spark 和 Apache Drill 之类的可以解决这个问题。这是 Spark-Shark 的正确用例吗?我可以在这个用例中使用哪些其他数据存储/解决方案 - Cassandra?MongoDB?

谢谢。

0 投票
1 回答
166 浏览

hadoop - Apache Drill support for all ANSI SQL 2003 queries

As puublished in Apache Drill documentation, it supports full ANSI SQL 2003. My question here is how exactly Drill can execute queries in which row level data updated or deleted on HDFS/HIVE ? AS we all know its not possible to modify data in HDFS. 1 more request, can anyone please create a tag for 'Apache Drill' as it requires high credentials.

0 投票
1 回答
1766 浏览

json - 使用 Apache Drill 查询压缩的 gz 文件

我有 Apache Drill 可以毫无问题地查询未压缩的 JSON 文件,但我正在努力处理 gz 压缩的 JSON 档案。

我的理解是,Drill 使用了我认为能够处理 gz 文件的 Hadoop 文件连接器,但似乎 Drill 的 JSON 查询功能总是锁定到 .json 文件。

我试过做这样的事情:

但是,收到文件未找到错误。也试过这个:

这会导致“无效的 JSON 映射”错误。

0 投票
1 回答
484 浏览

apache - 为什么我不能在 Web 浏览器中使用 boot2docker 在 Docker 中访问 8047 上的 Apache Drill WebUI?

当我检查 CONTAINER_ID 时,返回的端口信息为空:

我无法访问 Drill Web UI,但 sqlline 对于默认存储插件(例如 cp)运行良好。由于无法访问 Web UI,我无法配置新的存储插件。

0 投票
2 回答
798 浏览

hadoop - 阿帕奇钻配置

我需要为 Apache Drill(基本上是 PSV)添加存储插件,但我找不到可以添加以下行的配置文件:-

请注意,当前在 Web 浏览器中打开本地主机 url 的解决方案是不可行的。我不想将端口和 IP 暴露给 Internet。目前我做双跳 ssh 来访问我的服务器