问题标签 [beam-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-dataflow - 如何从输入数据中选择一组字段作为Beam SQL中的重复字段数组
问题陈述:
我有一个带有以下字段的输入 PCollection:
然后我执行一个 Beam SQL 操作,使得结果 PCollection 的输出应该像
准确地说:
这是我执行 Beam SQL 的代码片段:
我没有得到正确的结果。
有人可以指导我如何在 Beam SQL 中查询重复字段的数组吗?
apache-beam - BEAM SQL 和 RECORD 列类型
我正在尝试使用 Beam SQL 将数据文件中的记录选择到 PCollection 中。
我的数据文件具有以下 AVRO 架构:
"name":"str-field", "type":[ "null", "string" ],
"default":null }, { "name":"myRecord", "type":[ "null", { “类型”:“记录”,“名称”:“myRecord”,“字段”:[{“名称”:“stringInRecord”,“类型”:“字符串”},{“名称”:“intInRecord”,“类型":"int" },
我的 Beam SQL 是这样的:SELECT str-field, myRecord from Datafile
但是,Beam 不会将 myRecord 识别为 RECORD 类型。这里有什么问题吗?或者,是不是 BeamSQL 不支持“RECORD”类型?
apache-beam - Beam SQL CURRENT_TIMESTAMP
我的 Unix Spark Server 时区是 CDT,但是当我如下运行 Beam SQL CURRENT_TIMESTAMP 时,它总是以 UTC 的形式出现。我也在本地尝试过,但它总是显示 UTC。我希望这与 CURRENT_TIMESTAMP 函数中的服务器区域 CDT 相同。你能建议解决这个问题吗?
python - Python 中的 Apache Beam SQL 错误 - ValueError:不支持的类型:任何
我根据以下代码编写了一个示例 https://github.com/apache/beam/blob/master/sdks/python/apache_beam/examples/sql_taxi.py
我收到一条错误消息
/usr/local/lib/python3.6/dist-packages/apache_beam/typehints/schemas.py in typing_to_runner_api(type_) 177 array_type=schema_pb2.ArrayType(element_type=element_type)) 178 --> 179 raise ValueError("不支持的类型: %s" % type_) 180 181
ValueError:不支持的类型:任何
代码的对应部分是
)
java - 如何将 Beam SQL 窗口查询与 KafkaIO 集成?
首先,我们有一个 JSON 格式的 kafka 输入源:
我要做的是每分钟汇总每个单词的计数总和:
因此,这种情况非常适合以下 Beam SQL 语句:
以下是我当前使用 Beam 的 Java SDK 执行此流式 SQL 查询的工作代码:
我的问题是,当我运行此代码并将一些消息输入 Kafka 时,没有抛出异常并且它已经从 Kafka 接收到一些消息,但我看不到它触发了窗口聚合的过程。并且没有按预期出现结果(就像我之前显示的表格一样)。
那么 Beam SQL 目前是否支持无界 Kafka 输入源上的窗口语法?如果是这样,我当前的代码有什么问题?我该如何调试和修复它?是否有任何将 Beam SQL 与 KafkaIO 集成的代码示例?
请帮我!非常感谢!!
apache-beam - 如何为数值类型指定 BeamSQL UDF
我正在尝试将用户定义函数 (UDF) 添加到 Beam 管道中的 SqlTransform 中,并且 SQL 解析器似乎不理解该函数的类型。我得到的错误是:
No match found for function signature IF(<BOOLEAN>, <NUMERIC>, <NUMERIC>)
我已经尝试为一堆不同的类型(Double
, Float
, Long
, Integer
)定义它,但是看不到我如何以 Beam 可以理解的方式通用地编写它。
有没有办法给 UDF 提供类型提示,编写一个处理任意数字类型的方法?
java - 在 Apache Beam 中进行 SQL 转换时如何将 int 转换为布尔值
我正在尝试使用 Calcite SQL 语法对 Apache Beam 进行 SQL 转换。我正在做一个 int 到布尔转换。我的 sql 看起来像这样:
其中 IsService 是一个 int 指标,而 IsEligible 是一个布尔值。
根据文档,从 int 到 boolean 的显式转换很好。但是,当我运行管道时出现以下错误:
谁能解释我为什么会收到错误?
python - TypeError: expected bytes, str found [while running 'Writing to DB/ParDo(_WriteToRelationalDBFn) while writing to db from using beam-nuggets
@mohaseeb
我正在尝试下面的示例将数据从 pub\sub 写入 postgresql。将 pub\sub 数据写入 postgresql 时出现以下错误。“/usr/local/lib/python3.7/site-packages/sqlalchemy/engine/result.py”,第 545 行,在 _colnames_from_description colname = description_decoder(colname) TypeError: expected bytes, str found [while running ‘Writing to DB /ParDo(_WriteToRelationalDBFn)-ptransform-74904']
你能帮忙修一下吗?
beam-sql - Java中的Beam框架无法解析外部表
我正在使用梁 2.19。当我尝试解析一些包含 CREATE EXTERNAL TABLE 的 BEAM Sql 时:
我得到了这个例外。
所以我想知道用其中的外部表声明解析 SQL 的正确方法是什么。
apache-beam - 如何从 Beam SQL (SqlTransform) 输出嵌套行?
我想从 Beam SQL (SqlTransform) 的输出中获得带有嵌套行的行,但失败了。
问题:
- 从 SqlTransform 输出带有嵌套行的行的正确方法是什么?(行类型在文档中有所描述,所以我相信它是受支持的)
- 如果这是一个错误/缺失的功能,是 Beam 本身的问题吗?还是依赖跑步者?(我目前在 DirectRunner 上使用,但将来会使用 DataflowRunner。)
版本信息:
- 操作系统:macOS 10.15.7 (Catalina)
- Java:11.0.11(采用OpenJDK)
- 光束 SDK:2.32.0
这是我尝试过的,没有运气。
方言方言
我期待这个输出行具有以下架构
但实际上行被分成标量字段,如
泽塔 SQL
我有一个错误