问题标签 [google-cloud-dataflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
91 浏览

google-cloud-dataflow - 如何在现有的 Maven 项目中使用 Dataflow?

我需要对我的 pom 文件进行哪些依赖项和其他修改,以便我可以开始在现有项目中使用 Dataflow SDK?

0 投票
1 回答
164 浏览

google-cloud-dataflow - Dataflow 日志 UI 中列出的所有不同日志是什么?

在 Cloud Dataflow Logging UI 中,我看到 4 个不同的日志

  1. 数据流线束
  2. 数据流线束标准输出
  3. 数据流工作者启动器
  4. 洗牌

这些日志中的每一个代表什么?

这是一个屏幕截图,显示了我的意思。 截屏

0 投票
1 回答
1528 浏览

google-cloud-dataflow - 在 GCS 上读取 Avro 文件时出现 OutOfMemoryError 异常

我将大小约为 650GB 的 BigQuery 数据集导出到 GCS 上的 Avro 文件,并运行数据流程序来处理这些 Avro 文件。但是,即使只处理一个大小约为 1.31GB 的 Avro 文件,也会遇到 OutOfMemoryError 异常。

我收到以下错误消息,似乎异常源于 AvroIO 和 Avro 库:

对这个例外有什么建议吗?

谢谢!

0 投票
1 回答
2983 浏览

eclipse - Eclipse 找不到类 com.google.common.reflect.TypeToken?

我使用 Dataflow 的项目编译得很好

但是,当我将项目导入 eclipse 时,eclipse 无法构建项目并给出以下错误

0 投票
2 回答
3865 浏览

google-cloud-dataflow - 如何从 Cloud Dataflow 中的 PCollection 中提取内容?

只是想知道如何从 PCollection 中提取东西?假设我已经应用了一个 Count.Globally,所以在生成的 PCollection 中有一个数字,但是如何将它提取为 Long 值?

谢谢。

0 投票
2 回答
3379 浏览

maven - 使用 GCSUtil 写入文件时,如何修复有关线程组仍在运行的 Maven 警告?

我编写了一个简单的程序,使用GCSUtil将文本文件写入 GCS

我使用 mvn:exec 运行程序

Maven 退出并出现以下错误

我怎样才能解决这个问题?

0 投票
1 回答
323 浏览

google-cloud-dataflow - 如何在数据流中序列化 CharSequence?

是否有可用于序列化/反序列化 CharSequence 对象的现有编码器?我需要创建自定义编码器吗?

我有一堆使用 CharSequence 作为输入和输出的函数。我想创建一个通用的数据流转换,我可以用它把这个函数变成 DoFns。

0 投票
2 回答
14365 浏览

google-cloud-dataflow - 如何修复 Dataflow 无法序列化我的 DoFn?

当我运行我的数据流管道时,我得到下面的异常,抱怨我的 DoFn 不能被序列化。我该如何解决?

这是堆栈跟踪:

0 投票
0 回答
2693 浏览

google-cloud-dataflow - 如何为我的数据流指定工作人员数量?

我有一个 Apache Beam 管道,可以加载大约 90GB 的大型导入文件。我已经在 Apache Beam Java SDK 中编写了管道。

使用 的默认设置PipelineOptionsFactory,我的工作需要很长时间才能完成。

我如何控制并以编程方式指定我的工作的并行度,从而指定工人的数量?

0 投票
1 回答
120 浏览

hadoop - 是否可以使用 Google 的 Dataflow 运行 Hadoop MR 作业?

是否可以使用 Google 的 Dataflow 服务运行 Hadoop MR 作业?

我有几个Hadoop MR 作业,我希望能够在 Dataflow 服务上运行。我希望能够利用 Dataflow 服务,而不必完全重写我的 Hadoop 作业。