“dremio”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

132 浏览

sql - 如何在 Dremio 中创建临时表

我想在dremio中创建一个如下的临时表

选择 ABC 到 #temp_table

有什么建议吗？

sql dremio

2021-04-06T08:39:03.043

0 投票

1 回答

151 浏览

sql - 在 Dremio 查询中使用 FLATTEN 时，有没有办法包含元素索引？

我在通过 Dremio 公开的镶木地板文件中有许多行，例如：

ID	数据
1	[1.5,8.5,23.004]
2	[0.3,4.44, 2.59]

我想要实现的是一个查询，它将展平数组但给我一个明确的索引，这样我就知道哪一行与数组中的哪个元素有关。我需要这个的原因是因为我有另一个等效表，其中“数据”值表示需要查询并应用于原始数据的调整值。

我正在寻找的是这样的结果：

ID	数据元素	编号
1	1.5	0
1	8.5	1
1	23.004	2
2	0.3	0
2	4.44	1
2	2.59	2

看起来这需要某种窗口函数，如 ROW_NUMBER() OVER(...) 但虽然窗口函数在 Dremio 中可用，但我无法让它工作。

有谁知道：a）在展平时可以引用数组元素的索引吗？b) 使用 flatten 时返回的顺序总是保证与原始数组中的顺序相同？

如果 b) 为真，那么我真的不需要担心 a)。

2021-04-15T12:58:57.160

0 投票

0 回答

270 浏览

sql - Dremio 转换时间戳

我正在使用 Dremio 查询多个数据源。我有一个带有“时间戳”列 dataType 的 SAPIQ DB，其值为“2020-01-01 10:04:20”（格式：YYYY-MM-DD hh:mm:ss）。问题是当我查询表时Select * from TableABC，我得到一个空指针异常，日期时间无法转换为时间戳。但是，当我使用强制转换函数指定列时，以下查询有效。

请注意，源 DataType 在 SAPIQ 中是 DATETIME。Dremio 将其转换为 Timestamp 但抛出空指针，并且仅当我将 Timestamp 转换为 VARCHAR 时查询才有效，如上所示。上面的查询在我进行显式转换时起作用。但我的问题是我希望转换是隐式的，这样Select * from TableABC就能够在没有 NullPointerException 的情况下获取我的结果。

我已经在“src/main/resources/arp/implementation/sybase-arp.yaml”中尝试了以下方法，但没有成功。下面的配置向我抛出 NullPointerException。源代码位于https://github.com/dremioJonny/dremio-sybase-connector

Dremio 专家的任何帮助表示赞赏。

sql sap-iq dremio

2021-04-26T06:45:37.887

0 投票

1 回答

121 浏览

dremio - 在 dremio 中使用脚本添加反射

我正在尝试使用 dremio 数据湖上的脚本创建、更新和删除反射（原始/聚合）。可以在社区版中做到吗？

dremio

2021-04-29T07:02:40.407

0 投票

2 回答

949 浏览

kubernetes - Kubernetes 将 jar 复制到 pod 中并重新启动

我有一个 Kubernetes 问题，我需要在部署后将 2 个 jar（每个 jar > 1Mb）复制到一个 pod 中。所以理想的解决方案是我们不能使用 configMap (> 1Mb)，但我们需要在“initcontainer”中使用“wget”并下载 jars。所以下面是我修改过的 kubernetes-template 配置。原始版本位于https://github.com/dremio/dremio-cloud-tools/blob/master/charts/dremio/templates/dremio-executor.yaml

所以上面的方法不起作用，一旦我“执行”到 pod 中，我看不到任何 jar 被下载。我不明白上面有什么问题。但是请注意，如果我在 pod 内运行相同的 wget 命令，它会下载让我感到困惑的 jar。所以 URL 正常工作，目录的读写没有问题，但仍然没有下载 jar ???

kubernetes kubernetes-helm kubernetes-pod dremio

2021-04-30T07:00:51.860

0 投票

1 回答

227 浏览

python - 迭代 pyarrow._flight.FlightStreamReader

reader假设它是一个pyarrow._flight.FlightStreamReader对象，我如何遍历它。可以从中获得

整个example.py脚本来自https://github.com/dremio-hub/arrow-flight-client-examples/blob/main/python/example.py

目前我尝试reader.read_pandas()让它为整个 Dremio 结果生成一个数据框。不幸的是，如果查询有超过 5000 万行左右，它可能不适合数据框/或者可能没有足够的内存来存储它，我的进程就会被杀死。如何遍历阅读器对象并获取块，以便我可以为每个块生成数据帧。

当我使用

对于第一个块，它将仅从结果中转换/提取 3968 行并将其放入数据框中，但对于第二个块，它是一个None对象。我的示例确实有数百万行。

简而言之，如何按指定的块大小遍历阅读器？是否可以在不将其转换为数据帧的情况下每行打印这些块？

python pyarrow dremio

2021-04-30T19:44:06.763

0 投票

0 回答

96 浏览

python - 箭头飞行通过 python Rest Api 响应发送 RecordBatch Stream Bytepe 数组作为批处理

我有一个作为箭头记录批次流的结果集，我使用 reader.read_chunk() 来获取批次，我已将批次推送到批次数组并将其转换为字节数组作为响应。因为这里是代码

由于每个批次的 API 响应需要更多时间，如何将批次作为响应发送，以便 api 以迭代批次进行响应，我如何发送批次块。这是我从飞行服务器收到的批次列表的屏幕截图

python pyarrow dremio

2021-05-11T12:08:42.567

0 投票

0 回答

37 浏览

amazon-web-services - 启用了终止保护的 Dremio EC2 实例毫不客气地终止

我有一点奇怪的情况。我在启用了终止保护的 m5d.4xlarge EC2 实例（主节点）上运行了 Dremio 社区版安装（来自 AWS Marketplace）。该实例刚刚终止而没有警告。

这是我第三次/第四次看到这种情况并联系了 Dremio 支持和 AWS SME，但他们确认这种行为不应该发生。

我可能错过了什么吗？

amazon-web-services amazon-ec2 amazon-cloudwatch amazon-cloudtrail dremio

2021-05-31T14:31:14.120

0 投票

1 回答

229 浏览

apache-spark - 查询整个 Hive 外部表上的非分区列

我有使用 spark 大约 30 GB 大小和数百个分区创建的配置单元外部表（以 parquet 格式存储的 s3 文件）。但是，我需要查询非分区列（例如 SUPPLIER_ID）上的数据以查看完整的事务历史记录，但不特定于某个时期或日期（分区列）。在我不确定 Hive 表上哪些分区数据属于这种情况下，如何确保这种查询模式？

apache-spark hive apache-spark-sql hiveql dremio

2021-06-08T20:05:13.530

0 投票

1 回答

76 浏览

sql - 用 SQL 模仿“generate_series”的行为

我试图模仿“generate_series”的行为。我的表包含各种字段。其中之一是“计数”。我想像“计数”一样频繁地输出每一行，因为每一行都将作为一个独立的对象。

但是，Dremio 不支持“generate_series”。

有谁知道如何完成给定的任务？

关于 Muffex

编辑：

桌子：

ID	姓名	数数
0123	美国广播公司	3
2345	EFG	0
3456	海康	2

期望的输出：

ID	姓名
0123	美国广播公司
0123	美国广播公司
0123	美国广播公司
3456	海康
3456	海康

sql generate-series dremio

2021-07-12T08:21:51.677

问题标签 [dremio]

Reference