问题标签 [apache-beam]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
video-processing - 使用 Apache Beam 进行视频处理的 API
目前我观察到它Apache Beam
是为灵活的流处理而发布的。我正在寻找 api 来处理视频流,但没有找到。API
任何人都可以建议使用Apache Beam
/进行任何视频处理Google Dataflow
。
谢谢。
google-cloud-dataflow - 使用 Dataflow 读取 CSV 标头
我有一个 CSV 文件,但我事先不知道列名。在 Google Dataflow 中进行一些转换后,我需要以 JSON 格式输出数据。
获取标题行并将标签渗透到所有行的最佳方法是什么?
例如:
...变成(大约):
java - Apache Beam 中的 Azure Blob 支持?
我想知道 Apache Beam 是否支持 windows azure storage blob files(wasb) IO。现在还有支持吗?
我之所以问是因为我已经部署了一个 apache Beam 应用程序来在 Azure Spark 集群上运行一项作业,并且基本上不可能从关联的存储容器与该 spark 集群 IO wasb 文件。有没有替代的解决方案?
上下文:我正在尝试在我的 Azure Spark 集群上运行WordCount 示例。已经按照此处所述设置了一些组件,相信这会对我有所帮助。下面是我设置 hadoop 配置的代码部分:
但不幸的是,我一直以以下错误结束:
我正在考虑在这种情况下为 Azure 存储 Blob 实现自定义 IO,如果将其作为解决方案,我想与社区核实这是否是替代解决方案。
python - 如何从 Google Dataflow 中的 PCollection 中获取元素列表并在管道中使用它来循环写入转换?
我正在使用带有 Python SDK 的 Google Cloud Dataflow。
我想 :
- 从主 PCollection 中获取唯一日期列表
- 遍历该列表中的日期以创建过滤后的 PCollection(每个都有唯一的日期),并将每个过滤后的 PCollection 写入 BigQuery 中时间分区表中的分区。
我怎样才能得到那个清单?在以下组合转换之后,我创建了一个 ListPCollectionView 对象,但我无法迭代该对象:
我做错了吗?最好的方法是什么?
谢谢。
google-cloud-dataflow - 使用默认触发器在窗口中使用无限数据
google-cloud-dataflow - 找不到包 com.google.cloud.dataflow.sdk
从 Maven 执行时,我的 Dataflow Java 代码停止编译/运行:
google-cloud-dataflow - 运行 wordcount 示例时的 Apache Beam 异常
我想我非常关注文档,但我仍然遇到了这个异常。(唯一不同的是我从 Eclipse J2EE 运行它,但我不会期望这真的很重要,不是吗?)
代码:(这不是我写的,它是来自梁项目示例)。我认为您必须指定一个谷歌云平台项目并提供正确的凭据才能访问它。但是,我在此示例项目中找不到任何进行设置的地方。
例外:
google-cloud-dataflow - apache_beam.runners.dataflow_runner.DataflowRuntimeException:数据流管道失败:
我在 Cloud Shell 中设置了一个 Google Cloud 项目,并尝试运行此教程脚本https://github.com/GoogleCloudPlatform/cloudml-samples/blob/master/flowers/sample.sh
遇到这个错误:
我无法从GoogleCloud Dataflow 的错误日志中获得任何线索
感谢任何解决问题的答案和帮助。
google-cloud-platform - 分配 timestampLabel 时 Dataflow 作业的 PubSub 资源设置失败
在从 PubSub 读取时修改我的作业以开始使用后timestampLabel
,每次我尝试启动作业时资源设置似乎都会中断,并出现以下错误:
在哪里project-name
并subscription-name
代表我试图从中读取的项目和 PubSub 订阅的实际值。在尝试附加timestampLabel
消息条目之前,该作业正常工作,使用来自指定 PubSub 订阅的消息,这应该意味着我的 API/网络设置正常。
我还注意到有效载荷的两个警告
但在工作人员日志中找不到更多信息。在我的工作设置的几秒钟内,我可以看到timestampLabel
在管道的第一步中设置。不幸的是,我找不到有关此错误的任何其他案例或文档。