问题标签 [apache-drill]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
postgresql - 无法使用 apache Drill 1.2 配置 postgreSQL JDBC 驱动程序
使用 apache Drill 1.2,我们可以查询 RDBMS 数据https://drill.apache.org/blog/2015/10/16/drill-1.2-released/
我在这里下载了 JDBC PostgreSQL 驱动: https : //jdbc.postgresql.org/download.html 我拿了 JDBC4 不知道拿哪个。
我把jar文件放在这个文件夹'apache-drill-1.2.0\jars\3rdparty'
现在,我正在尝试为 postgres 添加一个插件。我正在使用 Web 控制台 ( http://127.0.0.1:8047 ) 进行操作。我创建了一个名为 pgplugin 的插件并添加了以下配置:
{
"type": "jdbc",
"driver": "org.postgresql.Driver",
"url": "jdbc:postgresql://IP:port/myschema",
"username": "root",
"password": "root",
"enabled": true
}
它显示错误:错误(无法创建/更新存储)
即使只有以下内容也无法正常工作(同样的错误):
{
"type": "jdbc"
}
我知道我应该将 jar(jdbc postgres 驱动程序)添加到配置文件中某处的 apache Drill 类路径中,但我无法弄清楚......
我试图添加这个:drill.exec.sys.store.provider.local.path = "/mypath"
到drill-override.conf
-> 结果是:
drill.exec: {
cluster-id: "drillbits1",
zk.connect: "localhost:2181",
drill.exec.sys.store.provider.local.path = "/mypath"
}
但它不起作用......有什么想法吗?非常感谢 !
amazon-web-services - 如何优化 apache spark 和钻 aws 集群中的 aws 集群实例类型?
我正在使用钻头读取 s3 存储桶,然后使用镶木地板将其写回 s3,以便使用 spark 数据帧读取它以进行进一步分析。AWS emr 要求我至少拥有 2 台核心机器。
将 i mirco 实例用于 master 和 cores 会影响性能吗?
我不使用 hdfs,所以我想把它们做成 mirco 实例来省钱。
无论如何,所有计算都将由 R3.xlarge 现场实例作为任务节点在内存中完成。最后,Spark 是否在每台机器中使用多个内核?还是使用 4.1 版本启动任务节点队列 R3.xlarge 以便它们可以自动调整大小是否更好?
jdbc - Apache Drill 1.2 和 Oracle JDBC
在嵌入式模式下使用 Apache Drill v1.2 和 Oracle Database 10g Enterprise Edition Release 10.2.0.4.0 - 64bit。
我很好奇是否有人成功地将 Apache Drill 连接到 Oracle 数据库。我已经更新了drill-override.conf
以下配置(每个文档):
并放置ojdbc6.jar
在\apache-drill-1.2.0\jars\3rdparty
. 我可以成功创建存储插件:
但是当我发出如下查询时:
我收到以下错误:
我试图查询其他模式/表并得到类似的结果。我也尝试连接到 Teradata 并得到同样的错误。有没有人有建议/遇到类似的问题?
sql-server - Apache Drill 1.2 和 SQL Server JDBC
Apache Drill 1.2 增加了在查询中包含 JDBC 关系源的令人兴奋的特性。我想包括 Microsoft SQL Server。
因此,按照文档,我将 SQL Server jar sqldjbc42.jar(最新的 MS JDBC 驱动程序)复制到了正确的第 3 方目录中。
我成功添加了存储。
配置是:
作为“mysqlserverstorage”
但是,运行查询失败。我试过了:
(当然我在这里使用了真实的现有表格而不是占位符)
错误:
org.apache.drill.common.exceptions.UserRemoteException:验证错误:从第 2 行第 6 列到第 2 行第 17 列:未找到表“mysqlserverstorage.databasename.schemaname.tablename”[错误 ID:f5b68a73-973f-4292- bdbf-54c2b6d5d21e 在 PC1234:31010]
和
错误:
org.apache.drill.common.exceptions.UserRemoteException:验证错误:读取表时出现异常 [错误 ID:PC1234:31010 上的 213772b8-0bc7-4426-93d5-d9fcdd60ace8]
有没有人成功配置和使用这个新功能?
apache-drill - 如何查询数组?
我在演习中有一个这样的对象:
我可以通过以下方式获得“迈克”:
有没有办法让我得到每个“名字”的列表?我尝试了以下,它不喜欢它:
amazon-s3 - 使用 Apache Drill 查询 S3 存储桶时出现 NullPointerException
我正在通过以下方式查询我的s3
存储桶:apache drill
常规也会发生同样的情况select
:
select * from
如果我使用directory/file.csv 也会发生同样的事情;
我做错了什么?
我的存储插件文件如下:
哪里明显accessKeyId
和secretAccessKey
被改变了......
red-queen
是我s3 bucket
的,桶里面是directory
一个文件夹。
apache-drill - apache钻中的多个片段
我正在 Apache Drill 集群中执行一个查询,但是它只创建了 1 个小段。我尝试了各种查询,例如 2 个查询的联合等,并在 500 万条记录上执行它,但它仍然只制作 1 个片段。是否可以进行任何配置更改来制作多个分段,以便可以在每个钻头上单独执行这些分段。如何确认查询是在 1 个钻位实例还是多个实例上执行。
apache - Apache Drill“启动嵌入式钻头失败”
我在 vm 上进行了演练,并成功连接到它。我在断电后重新启动了虚拟机,现在当我尝试在嵌入式模式下开始钻取时 - 我收到以下消息
我需要重新启动依赖项吗?
csv - 在 Apache Drill 中将 CSV 字符串转换为多列
使用:阿帕奇钻
我正在尝试以更结构化的形式提供以下数据:
期望的输出:
数据集运行到几个 GB。Drill 将输入读入三列,最后一个字符串在一列中。通过对最后一列执行字符串操作(REGEXP_REPLACE 和 CONCAT),然后将该列读取为 json(CONVERT_FROM),最后使用 KVGEN 和 FLATTEN 分离成不同的列,已成功实现所需的输出。
由于正则表达式函数,执行时间相当长。有更好的方法吗?
(PS:执行时间与使用 pyspark 作业来实现所需的输出进行比较)。
hadoop - Apache Drill - 慢查询
我在 Drill 中设置了以下存储插件:
然而,一个简单的
响应时间超过 30 秒。我错过了什么/我应该从哪里开始故障排除?
Hive 元存储服务器现在与 Drill 相同。并且表中的记录不到 20,000 条。