问题标签 [apache-beam]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1417 浏览

google-bigquery - BigqueryIO 无法写入日期分区表

我正在按照以下帖子中的说明写入 BigQuery 中的日期分区表。我正在使用可序列化函数使用$语法将窗口映射到分区位置,但出现以下错误:

我在这里错过了什么吗?

编辑添加代码:

0 投票
1 回答
199 浏览

video-processing - 使用 Apache Beam 进行视频处理的 API

目前我观察到它Apache Beam是为灵活的流处理而发布的。我正在寻找 api 来处理视频流,但没有找到。API任何人都可以建议使用Apache Beam/进行任何视频处理Google Dataflow

谢谢。

0 投票
3 回答
6402 浏览

google-cloud-dataflow - 使用 Dataflow 读取 CSV 标头

我有一个 CSV 文件,但我事先不知道列名。在 Google Dataflow 中进行一些转换后,我需要以 JSON 格式输出数据。

获取标题行并将标签渗透到所有行的最佳方法是什么?

例如:

...变成(大约):

0 投票
1 回答
1012 浏览

java - Apache Beam 中的 Azure Blob 支持?

我想知道 Apache Beam 是否支持 windows azure storage blob files(wasb) IO。现在还有支持吗?

我之所以问是因为我已经部署了一个 apache Beam 应用程序来在 Azure Spark 集群上运行一项作业,并且基本上不可能从关联的存储容器与该 spark 集群 IO wasb 文件。有没有替代的解决方案?

上下文:我正在尝试在我的 Azure Spark 集群上运行WordCount 示例。已经按照此处所述设置了一些组件,相信这会对我有所帮助。下面是我设置 hadoop 配置的代码部分:

但不幸的是,我一直以以下错误结束:

我正在考虑在这种情况下为 Azure 存储 Blob 实现自定义 IO,如果将其作为解决方案,我想与社区核实这是否是替代解决方案。

0 投票
1 回答
7393 浏览

python - 如何从 Google Dataflow 中的 PCollection 中获取元素列表并在管道中使用它来循环写入转换?

我正在使用带有 Python SDK 的 Google Cloud Dataflow。

我想 :

  • 从主 PCollection 中获取唯一日期列表
  • 遍历该列表中的日期以创建过滤后的 PCollection(每个都有唯一的日期),并将每个过滤后的 PCollection 写入 BigQuery 中时间分区表中的分区。

我怎样才能得到那个清单?在以下组合转换之后,我创建了一个 ListPCollectionView 对象,但我无法迭代该对象:

我做错了吗?最好的方法是什么?

谢谢。

0 投票
1 回答
1087 浏览

google-cloud-dataflow - 使用默认触发器在窗口中使用无限数据

我有一个Pub/Sub主题 + 订阅,并希望在Dataflow中使用和聚合订阅中的无限数据。我使用固定窗口并将聚合写入 BigQuery。

读写(没有窗口和聚合)工作正常。但是当我将数据传输到一个固定窗口(计算每个窗口中的元素)时,该窗口永远不会被触发。因此没有写入聚合。

这是我的单词发布者(它使用示例中的 kinglear.txt作为输入文件):

这是我的窗口字计数器:

上面的订阅者将不起作用,因为窗口似乎没有使用默认触发器触发。但是,如果我手动定义触发器,代码会起作用,并且计数会写入 BigQuery。

如果可能,我喜欢避免指定自定义触发器。

问题:

  1. 为什么我的解决方案不适用于 Dataflow 的默认触发器
  2. 如何更改我的发布者或订阅者以使用默认触发器触发窗口?
0 投票
1 回答
2075 浏览

google-cloud-dataflow - 找不到包 com.google.cloud.dataflow.sdk

从 Maven 执行时,我的 Dataflow Java 代码停止编译/运行:

0 投票
1 回答
1563 浏览

google-cloud-dataflow - 运行 wordcount 示例时的 Apache Beam 异常

我想我非常关注文档,但我仍然遇到了这个异常。(唯一不同的是我从 Eclipse J2EE 运行它,但我不会期望这真的很重要,不是吗?)

代码:(这不是我写的,它是来自梁项目示例)。我认为您必须指定一个谷歌云平台项目并提供正确的凭据才能访问它。但是,我在此示例项目中找不到任何进行设置的地方。

例外:

0 投票
1 回答
544 浏览

google-cloud-dataflow - apache_beam.runners.dataflow_runner.DataflowRuntimeException:数据流管道失败:

我在 Cloud Shell 中设置了一个 Google Cloud 项目,并尝试运行此教程脚本https://github.com/GoogleCloudPlatform/cloudml-samples/blob/master/flowers/sample.sh

遇到这个错误:

我无法从GoogleCloud Dataflow 的错误日志中获得任何线索

感谢任何解决问题的答案和帮助。

0 投票
1 回答
466 浏览

google-cloud-platform - 分配 timestampLabel 时 Dataflow 作业的 PubSub 资源设置失败

在从 PubSub 读取时修改我的作业以开始使用后timestampLabel,每次我尝试启动作业时资源设置似乎都会中断,并出现以下错误:

在哪里project-namesubscription-name代表我试图从中读取的项目和 PubSub 订阅的实际值。在尝试附加timestampLabel消息条目之前,该作业正常工作,使用来自指定 PubSub 订阅的消息,这应该意味着我的 API/网络设置正常。

我还注意到有效载荷的两个警告

但在工作人员日志中找不到更多信息。在我的工作设置的几秒钟内,我可以看到timestampLabel在管道的第一步中设置。不幸的是,我找不到有关此错误的任何其他案例或文档。