问题标签 [beam-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
318 浏览

google-cloud-dataflow - 如何从输入数据中选择一组字段作为Beam SQL中的重复字段数组

问题陈述:

我有一个带有以下字段的输入 PCollection:

然后我执行一个 Beam SQL 操作,使得结果 PCollection 的输出应该像

准确地说:

这是我执行 Beam SQL 的代码片段:

我没有得到正确的结果。

有人可以指导我如何在 Beam SQL 中查询重复字段的数组吗?

0 投票
0 回答
59 浏览

apache-beam - BEAM SQL 和 RECORD 列类型

我正在尝试使用 Beam SQL 将数据文件中的记录选择到 PCollection 中。

我的数据文件具有以下 AVRO 架构:

"name":"str-field", "type":[ "null", "string" ],
"default":null }, { "name":"myRecord", "type":[ "null", { “类型”:“记录”,“名称”:“myRecord”,“字段”:[{“名称”:“stringInRecord”,“类型”:“字符串”},{“名称”:“intInRecord”,“类型":"int" },

我的 Beam SQL 是这样的:SELECT str-field, myRecord from Datafile

但是,Beam 不会将 myRecord 识别为 RECORD 类型。这里有什么问题吗?或者,是不是 BeamSQL 不支持“RECORD”类型?

0 投票
0 回答
116 浏览

apache-beam - Beam SQL CURRENT_TIMESTAMP

我的 Unix Spark Server 时区是 CDT,但是当我如下运行 Beam SQL CURRENT_TIMESTAMP 时,它总是以 UTC 的形式出现。我也在本地尝试过,但它总是显示 UTC。我希望这与 CURRENT_TIMESTAMP 函数中的服务器区域 CDT 相同。你能建议解决这个问题吗?

0 投票
1 回答
221 浏览

python - Python 中的 Apache Beam SQL 错误 - ValueError:不支持的类型:任何

我根据以下代码编写了一个示例 https://github.com/apache/beam/blob/master/sdks/python/apache_beam/examples/sql_taxi.py

我收到一条错误消息

/usr/local/lib/python3.6/dist-packages/apache_beam/typehints/schemas.py in typing_to_runner_api(type_) 177 array_type=schema_pb2.ArrayType(element_type=element_type)) 178 --> 179 raise ValueError("不支持的类型: %s" % type_) 180 181

ValueError:不支持的类型:任何

代码的对应部分是

)

0 投票
1 回答
296 浏览

java - 如何将 Beam SQL 窗口查询与 KafkaIO 集成?

首先,我们有一个 JSON 格式的 kafka 输入源:

我要做的是每分钟汇总每个单词的计数总和:

因此,这种情况非常适合以下 Beam SQL 语句:

以下是我当前使用 Beam 的 Java SDK 执行此流式 SQL 查询的工作代码:

我的问题是,当我运行此代码并将一些消息输入 Kafka 时,没有抛出异常并且它已经从 Kafka 接收到一些消息,但我看不到它触发了窗口聚合的过程。并且没有按预期出现结果(就像我之前显示的表格一样)。

那么 Beam SQL 目前是否支持无界 Kafka 输入源上的窗口语法?如果是这样,我当前的代码有什么问题?我该如何调试和修复它?是否有任何将 Beam SQL 与 KafkaIO 集成的代码示例?

请帮我!非常感谢!!

0 投票
2 回答
63 浏览

apache-beam - 如何为数值类型指定 BeamSQL UDF

我正在尝试将用户定义函数 (UDF) 添加到 Beam 管道中的 SqlTransform 中,并且 SQL 解析器似乎不理解该函数的类型。我得到的错误是:

No match found for function signature IF(<BOOLEAN>, <NUMERIC>, <NUMERIC>)

我已经尝试为一堆不同的类型(Double, Float, Long, Integer)定义它,但是看不到我如何以 Beam 可以理解的方式通用地编写它。

有没有办法给 UDF 提供类型提示,编写一个处理任意数字类型的方法?

0 投票
1 回答
183 浏览

java - 在 Apache Beam 中进行 SQL 转换时如何将 int 转换为布尔值

我正在尝试使用 Calcite SQL 语法对 Apache Beam 进行 SQL 转换。我正在做一个 int 到布尔转换。我的 sql 看起来像这样:

其中 IsService 是一个 int 指标,而 IsEligible 是一个布尔值。

根据文档,从 int 到 boolean 的显式转换很好。但是,当我运行管道时出现以下错误:

谁能解释我为什么会收到错误?

0 投票
2 回答
288 浏览

python - TypeError: expected bytes, str found [while running 'Writing to DB/ParDo(_WriteToRelationalDBFn) while writing to db from using beam-nuggets

@mohaseeb

我正在尝试下面的示例将数据从 pub\sub 写入 postgresql。将 pub\sub 数据写入 postgresql 时出现以下错误。“/usr/local/lib/python3.7/site-packages/sqlalchemy/engine/result.py”,第 545 行,在 _colnames_from_description colname = description_decoder(colname) TypeError: expected bytes, str found [while running ‘Writing to DB /ParDo(_WriteToRelationalDBFn)-ptransform-74904']

你能帮忙修一下吗?

0 投票
0 回答
20 浏览

beam-sql - Java中的Beam框架无法解析外部表

我正在使用梁 2.19。当我尝试解析一些包含 CREATE EXTERNAL TABLE 的 BEAM Sql 时:

我得到了这个例外。

所以我想知道用其中的外部表声明解析 SQL 的正确方法是什么。

0 投票
1 回答
69 浏览

apache-beam - 如何从 Beam SQL (SqlTransform) 输出嵌套行?

我想从 Beam SQL (SqlTransform) 的输出中获得带有嵌套行的行,但失败了。

问题:

  1. 从 SqlTransform 输出带有嵌套行的行的正确方法是什么?(行类型在文档中有所描述,所以我相信它是受支持的)
  2. 如果这是一个错误/缺失的功能,是 Beam 本身的问题吗?还是依赖跑步者?(我目前在 DirectRunner 上使用,但将来会使用 DataflowRunner。)

版本信息:

  • 操作系统:macOS 10.15.7 (Catalina)
  • Java:11.0.11(采用OpenJDK)
  • 光束 SDK:2.32.0

这是我尝试过的,没有运气。

方言方言

我期待这个输出行具有以下架构

但实际上行被分成标量字段,如

泽塔 SQL

我有一个错误