问题标签 [dremio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 如何在 Dremio 中创建临时表
我想在dremio中创建一个如下的临时表
选择 ABC 到 #temp_table
有什么建议吗?
sql - 在 Dremio 查询中使用 FLATTEN 时,有没有办法包含元素索引?
我在通过 Dremio 公开的镶木地板文件中有许多行,例如:
ID | 数据 |
---|---|
1 | [1.5,8.5,23.004] |
2 | [0.3,4.44, 2.59] |
我想要实现的是一个查询,它将展平数组但给我一个明确的索引,这样我就知道哪一行与数组中的哪个元素有关。我需要这个的原因是因为我有另一个等效表,其中“数据”值表示需要查询并应用于原始数据的调整值。
我正在寻找的是这样的结果:
ID | 数据元素 | 编号 |
---|---|---|
1 | 1.5 | 0 |
1 | 8.5 | 1 |
1 | 23.004 | 2 |
2 | 0.3 | 0 |
2 | 4.44 | 1 |
2 | 2.59 | 2 |
看起来这需要某种窗口函数,如 ROW_NUMBER() OVER(...) 但虽然窗口函数在 Dremio 中可用,但我无法让它工作。
有谁知道:a)在展平时可以引用数组元素的索引吗?b) 使用 flatten 时返回的顺序总是保证与原始数组中的顺序相同?
如果 b) 为真,那么我真的不需要担心 a)。
sql - Dremio 转换时间戳
我正在使用 Dremio 查询多个数据源。我有一个带有“时间戳”列 dataType 的 SAPIQ DB,其值为“2020-01-01 10:04:20”(格式:YYYY-MM-DD hh:mm:ss)。问题是当我查询表时Select * from TableABC
,我得到一个空指针异常,日期时间无法转换为时间戳。但是,当我使用强制转换函数指定列时,以下查询有效。
请注意,源 DataType 在 SAPIQ 中是 DATETIME。Dremio 将其转换为 Timestamp 但抛出空指针,并且仅当我将 Timestamp 转换为 VARCHAR 时查询才有效,如上所示。上面的查询在我进行显式转换时起作用。但我的问题是我希望转换是隐式的,这样Select * from TableABC
就能够在没有 NullPointerException 的情况下获取我的结果。
我已经在“src/main/resources/arp/implementation/sybase-arp.yaml”中尝试了以下方法,但没有成功。下面的配置向我抛出 NullPointerException。源代码位于https://github.com/dremioJonny/dremio-sybase-connector
Dremio 专家的任何帮助表示赞赏。
dremio - 在 dremio 中使用脚本添加反射
我正在尝试使用 dremio 数据湖上的脚本创建、更新和删除反射(原始/聚合)。可以在社区版中做到吗?
kubernetes - Kubernetes 将 jar 复制到 pod 中并重新启动
我有一个 Kubernetes 问题,我需要在部署后将 2 个 jar(每个 jar > 1Mb)复制到一个 pod 中。所以理想的解决方案是我们不能使用 configMap (> 1Mb),但我们需要在“initcontainer”中使用“wget”并下载 jars。所以下面是我修改过的 kubernetes-template 配置。原始版本位于https://github.com/dremio/dremio-cloud-tools/blob/master/charts/dremio/templates/dremio-executor.yaml
所以上面的方法不起作用,一旦我“执行”到 pod 中,我看不到任何 jar 被下载。我不明白上面有什么问题。但是请注意,如果我在 pod 内运行相同的 wget 命令,它会下载让我感到困惑的 jar。所以 URL 正常工作,目录的读写没有问题,但仍然没有下载 jar ???
python - 迭代 pyarrow._flight.FlightStreamReader
reader
假设它是一个pyarrow._flight.FlightStreamReader
对象,我如何遍历它。可以从中获得
整个example.py
脚本来自https://github.com/dremio-hub/arrow-flight-client-examples/blob/main/python/example.py
目前我尝试reader.read_pandas()
让它为整个 Dremio 结果生成一个数据框。不幸的是,如果查询有超过 5000 万行左右,它可能不适合数据框/或者可能没有足够的内存来存储它,我的进程就会被杀死。如何遍历阅读器对象并获取块,以便我可以为每个块生成数据帧。
当我使用
对于第一个块,它将仅从结果中转换/提取 3968 行并将其放入数据框中,但对于第二个块,它是一个None
对象。我的示例确实有数百万行。
简而言之,如何按指定的块大小遍历阅读器?是否可以在不将其转换为数据帧的情况下每行打印这些块?
amazon-web-services - 启用了终止保护的 Dremio EC2 实例毫不客气地终止
我有一点奇怪的情况。我在启用了终止保护的 m5d.4xlarge EC2 实例(主节点)上运行了 Dremio 社区版安装(来自 AWS Marketplace)。该实例刚刚终止而没有警告。
这是我第三次/第四次看到这种情况并联系了 Dremio 支持和 AWS SME,但他们确认这种行为不应该发生。
我可能错过了什么吗?
apache-spark - 查询整个 Hive 外部表上的非分区列
我有使用 spark 大约 30 GB 大小和数百个分区创建的配置单元外部表(以 parquet 格式存储的 s3 文件)。但是,我需要查询非分区列(例如 SUPPLIER_ID)上的数据以查看完整的事务历史记录,但不特定于某个时期或日期(分区列)。在我不确定 Hive 表上哪些分区数据属于这种情况下,如何确保这种查询模式?
sql - 用 SQL 模仿“generate_series”的行为
我试图模仿“generate_series”的行为。我的表包含各种字段。其中之一是“计数”。我想像“计数”一样频繁地输出每一行,因为每一行都将作为一个独立的对象。
但是,Dremio 不支持“generate_series”。
有谁知道如何完成给定的任务?
关于 Muffex
编辑:
桌子:
ID | 姓名 | 数数 |
---|---|---|
0123 | 美国广播公司 | 3 |
2345 | EFG | 0 |
3456 | 海康 | 2 |
期望的输出:
ID | 姓名 |
---|---|
0123 | 美国广播公司 |
0123 | 美国广播公司 |
0123 | 美国广播公司 |
3456 | 海康 |
3456 | 海康 |