问题标签 [google-cloud-dataflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-dataflow - 如何在现有的 Maven 项目中使用 Dataflow?
我需要对我的 pom 文件进行哪些依赖项和其他修改,以便我可以开始在现有项目中使用 Dataflow SDK?
google-cloud-dataflow - Dataflow 日志 UI 中列出的所有不同日志是什么?
在 Cloud Dataflow Logging UI 中,我看到 4 个不同的日志
- 数据流线束
- 数据流线束标准输出
- 数据流工作者启动器
- 洗牌
这些日志中的每一个代表什么?
这是一个屏幕截图,显示了我的意思。
google-cloud-dataflow - 在 GCS 上读取 Avro 文件时出现 OutOfMemoryError 异常
我将大小约为 650GB 的 BigQuery 数据集导出到 GCS 上的 Avro 文件,并运行数据流程序来处理这些 Avro 文件。但是,即使只处理一个大小约为 1.31GB 的 Avro 文件,也会遇到 OutOfMemoryError 异常。
我收到以下错误消息,似乎异常源于 AvroIO 和 Avro 库:
对这个例外有什么建议吗?
谢谢!
eclipse - Eclipse 找不到类 com.google.common.reflect.TypeToken?
我使用 Dataflow 的项目编译得很好
但是,当我将项目导入 eclipse 时,eclipse 无法构建项目并给出以下错误
google-cloud-dataflow - 如何从 Cloud Dataflow 中的 PCollection 中提取内容?
只是想知道如何从 PCollection 中提取东西?假设我已经应用了一个 Count.Globally,所以在生成的 PCollection 中有一个数字,但是如何将它提取为 Long 值?
谢谢。
google-cloud-dataflow - 如何在数据流中序列化 CharSequence?
是否有可用于序列化/反序列化 CharSequence 对象的现有编码器?我需要创建自定义编码器吗?
我有一堆使用 CharSequence 作为输入和输出的函数。我想创建一个通用的数据流转换,我可以用它把这个函数变成 DoFns。
google-cloud-dataflow - 如何修复 Dataflow 无法序列化我的 DoFn?
当我运行我的数据流管道时,我得到下面的异常,抱怨我的 DoFn 不能被序列化。我该如何解决?
这是堆栈跟踪:
google-cloud-dataflow - 如何为我的数据流指定工作人员数量?
我有一个 Apache Beam 管道,可以加载大约 90GB 的大型导入文件。我已经在 Apache Beam Java SDK 中编写了管道。
使用 的默认设置PipelineOptionsFactory
,我的工作需要很长时间才能完成。
我如何控制并以编程方式指定我的工作的并行度,从而指定工人的数量?
hadoop - 是否可以使用 Google 的 Dataflow 运行 Hadoop MR 作业?
是否可以使用 Google 的 Dataflow 服务运行 Hadoop MR 作业?
我有几个Hadoop MR 作业,我希望能够在 Dataflow 服务上运行。我希望能够利用 Dataflow 服务,而不必完全重写我的 Hadoop 作业。