问题标签 [apache-drill]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1578 浏览

postgresql - 无法使用 apache Drill 1.2 配置 postgreSQL JDBC 驱动程序

使用 apache Drill 1.2,我们可以查询 RDBMS 数据https://drill.apache.org/blog/2015/10/16/drill-1.2-released/

我在这里下载了 JDBC PostgreSQL 驱动: https : //jdbc.postgresql.org/download.html 我拿了 JDBC4 不知道拿哪个。

我把jar文件放在这个文件夹'apache-drill-1.2.0\jars\3rdparty'

现在,我正在尝试为 postgres 添加一个插件。我正在使用 Web 控制台 ( http://127.0.0.1:8047 ) 进行操作。我创建了一个名为 pgplugin 的插件并添加了以下配置:

{ "type": "jdbc", "driver": "org.postgresql.Driver", "url": "jdbc:postgresql://IP:port/myschema", "username": "root", "password": "root", "enabled": true }

它显示错误:错误(无法创建/更新存储)

即使只有以下内容也无法正常工作(同样的错误):

{ "type": "jdbc" }

我知道我应该将 jar(jdbc postgres 驱动程序)添加到配置文件中某处的 apache Drill 类路径中,但我无法弄清楚......

我试图添加这个:drill.exec.sys.store.provider.local.path = "/mypath"

drill-override.conf-> 结果是:

drill.exec: { cluster-id: "drillbits1", zk.connect: "localhost:2181", drill.exec.sys.store.provider.local.path = "/mypath" }

但它不起作用......有什么想法吗?非常感谢 !

0 投票
1 回答
516 浏览

amazon-web-services - 如何优化 apache spark 和钻 aws 集群中的 aws 集群实例类型?

我正在使用钻头读取 s3 存储桶,然后使用镶木地板将其写回 s3,以便使用 spark 数据帧读取它以进行进一步分析。AWS emr 要求我至少拥有 2 台核心机器。

将 i mirco 实例用于 master 和 cores 会影响性能吗?

我不使用 hdfs,所以我想把它们做成 mirco 实例来省钱。

无论如何,所有计算都将由 R3.xlarge 现场实例作为任务节点在内存中完成。最后,Spark 是否在每台机器中使用多个内核?还是使用 4.1 版本启动任务节点队列 R3.xlarge 以便它们可以自动调整大小是否更好?

0 投票
3 回答
2054 浏览

jdbc - Apache Drill 1.2 和 Oracle JDBC

在嵌入式模式下使用 Apache Drill v1.2 和 Oracle Database 10g Enterprise Edition Release 10.2.0.4.0 - 64bit。

我很好奇是否有人成功地将 Apache Drill 连接到 Oracle 数据库。我已经更新了drill-override.conf以下配置(每个文档):

并放置ojdbc6.jar\apache-drill-1.2.0\jars\3rdparty. 我可以成功创建存储插件:

但是当我发出如下查询时:

我收到以下错误:

我试图查询其他模式/表并得到类似的结果。我也尝试连接到 Teradata 并得到同样的错误。有没有人有建议/遇到类似的问题?

0 投票
2 回答
1815 浏览

sql-server - Apache Drill 1.2 和 SQL Server JDBC

Apache Drill 1.2 增加了在查询中包含 JDBC 关系源的令人兴奋的特性。我想包括 Microsoft SQL Server。

因此,按照文档,我将 SQL Server jar sqldjbc42.jar(最新的 MS JDBC 驱动程序)复制到了正确的第 3 方目录中。

我成功添加了存储。

配置是:

作为“mysqlserverstorage”

但是,运行查询失败。我试过了:

(当然我在这里使用了真实的现有表格而不是占位符)

错误:

org.apache.drill.common.exceptions.UserRemoteException:验证错误:从第 2 行第 6 列到第 2 行第 17 列:未找到表“mysqlserverstorage.databasename.schemaname.tablename”[错误 ID:f5b68a73-973f-4292- bdbf-54c2b6d5d21e 在 PC1234:31010]

错误:

org.apache.drill.common.exceptions.UserRemoteException:验证错误:读取表时出现异常 [错误 ID:PC1234:31010 上的 213772b8-0bc7-4426-93d5-d9fcdd60ace8]

有没有人成功配置和使用这个新功能?

0 投票
1 回答
1161 浏览

apache-drill - 如何查询数组?

我在演习中有一个这样的对象:

我可以通过以下方式获得“迈克”:

有没有办法让我得到每个“名字”的列表?我尝试了以下,它不喜欢它:

0 投票
1 回答
486 浏览

amazon-s3 - 使用 Apache Drill 查询 S3 存储桶时出现 NullPointerException

我正在通过以下方式查询我的s3存储桶:apache drill

常规也会发生同样的情况select

select * from如果我使用directory/file.csv 也会发生同样的事情;

我做错了什么?

我的存储插件文件如下:

哪里明显accessKeyIdsecretAccessKey被改变了......

red-queen是我s3 bucket的,桶里面是directory一个文件夹。

0 投票
1 回答
215 浏览

apache-drill - apache钻中的多个片段

我正在 Apache Drill 集群中执行一个查询,但是它只创建了 1 个小段。我尝试了各种查询,例如 2 个查询的联合等,并在 500 万条记录上执行它,但它仍然只制作 1 个片段。是否可以进行任何配置更改来制作多个分段,以便可以在每个钻头上单独执行这些分段。如何确认查询是在 1 个钻位实例还是多个实例上执行。

0 投票
3 回答
1311 浏览

apache - Apache Drill“启动嵌入式钻头失败”

我在 vm 上进行了演练,并成功连接到它。我在断电后重新启动了虚拟机,现在当我尝试在嵌入式模式下开始钻取时 - 我收到以下消息

我需要重新启动依赖项吗?

0 投票
1 回答
348 浏览

csv - 在 Apache Drill 中将 CSV 字符串转换为多列

使用:阿帕奇钻

我正在尝试以更结构化的形式提供以下数据:

期望的输出:

数据集运行到几个 GB。Drill 将输入读入三列,最后一个字符串在一列中。通过对最后一列执行字符串操作(REGEXP_REPLACE 和 CONCAT),然后将该列读取为 json(CONVERT_FROM),最后使用 KVGEN 和 FLATTEN 分离成不同的列,已成功实现所需的输出。

由于正则表达式函数,执行时间相当长。有更好的方法吗?

(PS:执行时间与使用 pyspark 作业来实现所需的输出进行比较)。

0 投票
1 回答
789 浏览

hadoop - Apache Drill - 慢查询

我在 Drill 中设置了以下存储插件:

然而,一个简单的

响应时间超过 30 秒。我错过了什么/我应该从哪里开始故障排除?

Hive 元存储服务器现在与 Drill 相同。并且表中的记录不到 20,000 条。