问题标签 [apache-drill]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

622 问题

0 投票

1 回答

1578 浏览

postgresql - 无法使用 apache Drill 1.2 配置 postgreSQL JDBC 驱动程序

使用 apache Drill 1.2，我们可以查询 RDBMS 数据https://drill.apache.org/blog/2015/10/16/drill-1.2-released/

我在这里下载了 JDBC PostgreSQL 驱动： https : //jdbc.postgresql.org/download.html 我拿了 JDBC4 不知道拿哪个。

我把jar文件放在这个文件夹'apache-drill-1.2.0\jars\3rdparty'

现在，我正在尝试为 postgres 添加一个插件。我正在使用 Web 控制台 ( http://127.0.0.1:8047 ) 进行操作。我创建了一个名为 pgplugin 的插件并添加了以下配置：

{ "type": "jdbc", "driver": "org.postgresql.Driver", "url": "jdbc:postgresql://IP:port/myschema", "username": "root", "password": "root", "enabled": true }

它显示错误：错误（无法创建/更新存储）

即使只有以下内容也无法正常工作（同样的错误）：

{ "type": "jdbc" }

我知道我应该将 jar（jdbc postgres 驱动程序）添加到配置文件中某处的 apache Drill 类路径中，但我无法弄清楚......

我试图添加这个：drill.exec.sys.store.provider.local.path = "/mypath"

到drill-override.conf-> 结果是：

drill.exec: { cluster-id: "drillbits1", zk.connect: "localhost:2181", drill.exec.sys.store.provider.local.path = "/mypath" }

但它不起作用......有什么想法吗？非常感谢！

2015-10-23T21:18:30.590

0 投票

1 回答

516 浏览

amazon-web-services - 如何优化 apache spark 和钻 aws 集群中的 aws 集群实例类型？

我正在使用钻头读取 s3 存储桶，然后使用镶木地板将其写回 s3，以便使用 spark 数据帧读取它以进行进一步分析。AWS emr 要求我至少拥有 2 台核心机器。

将 i mirco 实例用于 master 和 cores 会影响性能吗？

我不使用 hdfs，所以我想把它们做成 mirco 实例来省钱。

无论如何，所有计算都将由 R3.xlarge 现场实例作为任务节点在内存中完成。最后，Spark 是否在每台机器中使用多个内核？还是使用 4.1 版本启动任务节点队列 R3.xlarge 以便它们可以自动调整大小是否更好？

amazon-web-services amazon-ec2 apache-spark apache-drill

2015-10-24T15:27:55.953

0 投票

3 回答

2054 浏览

jdbc - Apache Drill 1.2 和 Oracle JDBC

在嵌入式模式下使用 Apache Drill v1.2 和 Oracle Database 10g Enterprise Edition Release 10.2.0.4.0 - 64bit。

我很好奇是否有人成功地将 Apache Drill 连接到 Oracle 数据库。我已经更新了drill-override.conf以下配置（每个文档）：

并放置ojdbc6.jar在\apache-drill-1.2.0\jars\3rdparty. 我可以成功创建存储插件：

但是当我发出如下查询时：

我收到以下错误：

我试图查询其他模式/表并得到类似的结果。我也尝试连接到 Teradata 并得到同样的错误。有没有人有建议/遇到类似的问题？

jdbc oracle10g rdbms apache-drill

2015-10-26T17:00:49.983

0 投票

2 回答

1815 浏览

sql-server - Apache Drill 1.2 和 SQL Server JDBC

Apache Drill 1.2 增加了在查询中包含 JDBC 关系源的令人兴奋的特性。我想包括 Microsoft SQL Server。

因此，按照文档，我将 SQL Server jar sqldjbc42.jar（最新的 MS JDBC 驱动程序）复制到了正确的第 3 方目录中。

我成功添加了存储。

配置是：

作为“mysqlserverstorage”

但是，运行查询失败。我试过了：

（当然我在这里使用了真实的现有表格而不是占位符）

错误：

org.apache.drill.common.exceptions.UserRemoteException：验证错误：从第 2 行第 6 列到第 2 行第 17 列：未找到表“mysqlserverstorage.databasename.schemaname.tablename”[错误 ID：f5b68a73-973f-4292- bdbf-54c2b6d5d21e 在 PC1234:31010]

和

错误：

org.apache.drill.common.exceptions.UserRemoteException：验证错误：读取表时出现异常 [错误 ID：PC1234:31010 上的 213772b8-0bc7-4426-93d5-d9fcdd60ace8]

有没有人成功配置和使用这个新功能？

sql-server jdbc apache-drill

2015-10-27T14:18:53.483

0 投票

1 回答

1161 浏览

apache-drill - 如何查询数组？

我在演习中有一个这样的对象：

我可以通过以下方式获得“迈克”：

有没有办法让我得到每个“名字”的列表？我尝试了以下，它不喜欢它：

apache-drill

2015-10-27T23:58:50.843

0 投票

1 回答

486 浏览

amazon-s3 - 使用 Apache Drill 查询 S3 存储桶时出现 NullPointerException

我正在通过以下方式查询我的s3存储桶：apache drill

常规也会发生同样的情况select：

select * from如果我使用directory/file.csv 也会发生同样的事情;

我做错了什么？

我的存储插件文件如下：

哪里明显accessKeyId和secretAccessKey被改变了......

red-queen是我s3 bucket的，桶里面是directory一个文件夹。

amazon-s3 apache-drill

2015-10-28T01:15:37.830

0 投票

1 回答

215 浏览

apache-drill - apache钻中的多个片段

我正在 Apache Drill 集群中执行一个查询，但是它只创建了 1 个小段。我尝试了各种查询，例如 2 个查询的联合等，并在 500 万条记录上执行它，但它仍然只制作 1 个片段。是否可以进行任何配置更改来制作多个分段，以便可以在每个钻头上单独执行这些分段。如何确认查询是在 1 个钻位实例还是多个实例上执行。

apache-drill

2015-11-04T07:26:40.607

0 投票

3 回答

1311 浏览

apache - Apache Drill“启动嵌入式钻头失败”

我在 vm 上进行了演练，并成功连接到它。我在断电后重新启动了虚拟机，现在当我尝试在嵌入式模式下开始钻取时 - 我收到以下消息

我需要重新启动依赖项吗？

apache apache-drill

2015-11-09T17:22:14.347

0 投票

1 回答

348 浏览

csv - 在 Apache Drill 中将 CSV 字符串转换为多列

使用：阿帕奇钻

我正在尝试以更结构化的形式提供以下数据：

期望的输出：

数据集运行到几个 GB。Drill 将输入读入三列，最后一个字符串在一列中。通过对最后一列执行字符串操作（REGEXP_REPLACE 和 CONCAT），然后将该列读取为 json（CONVERT_FROM），最后使用 KVGEN 和 FLATTEN 分离成不同的列，已成功实现所需的输出。

由于正则表达式函数，执行时间相当长。有更好的方法吗？

（PS：执行时间与使用 pyspark 作业来实现所需的输出进行比较）。

csv query-optimization apache-drill sqlline

2015-11-10T05:04:03.670

0 投票

1 回答

789 浏览

hadoop - Apache Drill - 慢查询

我在 Drill 中设置了以下存储插件：

然而，一个简单的

响应时间超过 30 秒。我错过了什么/我应该从哪里开始故障排除？

Hive 元存储服务器现在与 Drill 相同。并且表中的记录不到 20,000 条。

hadoop hive hdfs apache-drill

2015-11-10T21:14:16.547

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-drill]

Reference