问题标签 [dremio]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
132 浏览

sql - 如何在 Dremio 中创建临时表

我想在dremio中创建一个如下的临时表

选择 ABC 到 #temp_table

有什么建议吗?

0 投票
1 回答
151 浏览

sql - 在 Dremio 查询中使用 FLATTEN 时,有没有办法包含元素索引?

我在通过 Dremio 公开的镶木地板文件中有许多行,例如:

ID 数据
1 [1.5,8.5,23.004]
2 [0.3,4.44, 2.59]

我想要实现的是一个查询,它将展平数组但给我一个明确的索引,这样我就知道哪一行与数组中的哪个元素有关。我需要这个的原因是因为我有另一个等效表,其中“数据”值表示需要查询并应用于原始数据的调整值。

我正在寻找的是这样的结果:

ID 数据元素 编号
1 1.5 0
1 8.5 1
1 23.004 2
2 0.3 0
2 4.44 1
2 2.59 2

看起来这需要某种窗口函数,如 ROW_NUMBER() OVER(...) 但虽然窗口函数在 Dremio 中可用,但我无法让它工作。

有谁知道:a)在展平时可以引用数组元素的索引吗?b) 使用 flatten 时返回的顺序总是保证与原始数组中的顺序相同?

如果 b) 为真,那么我真的不需要担心 a)。

0 投票
0 回答
270 浏览

sql - Dremio 转换时间戳

我正在使用 Dremio 查询多个数据源。我有一个带有“时间戳”列 dataType 的 SAPIQ DB,其值为“2020-01-01 10:04:20”(格式:YYYY-MM-DD hh:mm:ss)。问题是当我查询表时Select * from TableABC,我得到一个空指针异常,日期时间无法转换为时间戳。但是,当我使用强制转换函数指定列时,以下查询有效。

请注意,源 DataType 在 SAPIQ 中是 DATETIME。Dremio 将其转换为 Timestamp 但抛出空指针,并且仅当我将 Timestamp 转换为 VARCHAR 时查询才有效,如上所示。上面的查询在我进行显式转换时起作用。但我的问题是我希望转换是隐式的,这样Select * from TableABC就能够在没有 NullPointerException 的情况下获取我的结果。

我已经在“src/main/resources/arp/implementation/sybase-arp.yaml”中尝试了以下方法,但没有成功。下面的配置向我抛出 NullPointerException。源代码位于https://github.com/dremioJonny/dremio-sybase-connector

Dremio 专家的任何帮助表示赞赏。

0 投票
1 回答
121 浏览

dremio - 在 dremio 中使用脚本添加反射

我正在尝试使用 dremio 数据湖上的脚本创建、更新和删除反射(原始/聚合)。可以在社区版中做到吗?

0 投票
2 回答
949 浏览

kubernetes - Kubernetes 将 jar 复制到 pod 中并重新启动

我有一个 Kubernetes 问题,我需要在部署后将 2 个 jar(每个 jar > 1Mb)复制到一个 pod 中。所以理想的解决方案是我们不能使用 configMap (> 1Mb),但我们需要在“initcontainer”中使用“wget”并下载 jars。所以下面是我修改过的 kubernetes-template 配置。原始版本位于https://github.com/dremio/dremio-cloud-tools/blob/master/charts/dremio/templates/dremio-executor.yaml

所以上面的方法不起作用,一旦我“执行”到 pod 中,我看不到任何 jar 被下载。我不明白上面有什么问题。但是请注意,如果我在 pod 内运行相同的 wget 命令,它会下载让我感到困惑的 jar。所以 URL 正常工作,目录的读写没有问题,但仍然没有下载 jar ???

0 投票
1 回答
227 浏览

python - 迭代 pyarrow._flight.FlightStreamReader

reader假设它是一个pyarrow._flight.FlightStreamReader对象,我如何遍历它。可以从中获得

整个example.py脚本来自https://github.com/dremio-hub/arrow-flight-client-examples/blob/main/python/example.py

目前我尝试reader.read_pandas()让它为整个 Dremio 结果生成一个数据框。不幸的是,如果查询有超过 5000 万行左右,它可能不适合数据框/或者可能没有足够的内存来存储它,我的进程就会被杀死。如何遍历阅读器对象并获取块,以便我可以为每个块生成数据帧。

当我使用

对于第一个块,它将仅从结果中转换/提取 3968 行并将其放入数据框中,但对于第二个块,它是一个None对象。我的示例确实有数百万行。

简而言之,如何按指定的块大小遍历阅读器?是否可以在不将其转换为数据帧的情况下每行打印这些块?

0 投票
0 回答
96 浏览

python - 箭头飞行通过 python Rest Api 响应发送 RecordBatch Stream Bytepe 数组作为批处理

我有一个作为箭头记录批次流的结果集,我使用 reader.read_chunk() 来获取批次,我已将批次推送到批次数组并将其转换为字节数组作为响应。因为这里是代码

由于每个批次的 API 响应需要更多时间,如何将批次作为响应发送,以便 api 以迭代批次进行响应,我如何发送批次块。这是我从飞行服务器收到的批次列表的屏幕截图 在此处输入图像描述

0 投票
0 回答
37 浏览

amazon-web-services - 启用了终止保护的 Dremio EC2 实例毫不客气地终止

我有一点奇怪的情况。我在启用了终止保护的 m5d.4xlarge EC2 实例(主节点)上运行了 Dremio 社区版安装(来自 AWS Marketplace)。该实例刚刚终止而没有警告。

这是我第三次/第四次看到这种情况并联系了 Dremio 支持和 AWS SME,但他们确认这种行为不应该发生。

我可能错过了什么吗?

0 投票
1 回答
229 浏览

apache-spark - 查询整个 Hive 外部表上的非分区列

我有使用 spark 大约 30 GB 大小和数百个分区创建的配置单元外部表(以 parquet 格式存储的 s3 文件)。但是,我需要查询非分区列(例如 SUPPLIER_ID)上的数据以查看完整的事务历史记录,但不特定于某个时期或日期(分区列)。在我不确定 Hive 表上哪些分区数据属于这种情况下,如何确保这种查询模式?

0 投票
1 回答
76 浏览

sql - 用 SQL 模仿“generate_series”的行为

我试图模仿“generate_series”的行为。我的表包含各种字段。其中之一是“计数”。我想像“计数”一样频繁地输出每一行,因为每一行都将作为一个独立的对象。

但是,Dremio 不支持“generate_series”。

有谁知道如何完成给定的任务?

关于 Muffex

编辑:

桌子:

ID 姓名 数数
0123 美国广播公司 3
2345 EFG 0
3456 海康 2

期望的输出:

ID 姓名
0123 美国广播公司
0123 美国广播公司
0123 美国广播公司
3456 海康
3456 海康