问题标签 [google-cloud-dataflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
894 浏览

google-cloud-dataflow - 云数据流中的最大并发作业数

并发数据流作业(不是核心)的数量是否有限制?我试图提交约 40 个小作业以并行运行,但在 7 个作业后开始出现 429 Rate Limit Exceeded 错误。

谢谢,G

0 投票
1 回答
62 浏览

google-cloud-dataflow - 云数据流作业输出是事务性的吗?

假设我不知道应该生成一些输出文件(在云存储中)的作业状态,我是否可以假设如果存在一些输出文件,它们包含所有作业的输出?或者有可能部分输出是可见的?

谢谢,G

0 投票
1 回答
144 浏览

google-cloud-dataflow - 删除成功完成的云数据流作业的实例时出错

当作业即将完成时,我看到以下错误:

之后,工作实例不会被删除,我必须手动杀死它们。

这是一个已知的错误吗?

谢谢,G

0 投票
1 回答
746 浏览

google-cloud-dataflow - 是否可以使用自定义包运行 Cloud Dataflow?

是否可以为 Dataflow 工作人员提供自定义包?我想从计算中取出一个 Debian 打包的二进制文件。

编辑:需要明确的是,包配置非常复杂,仅将文件捆绑在 --filesToStage 中是不可行的。解决方案应该涉及在某个时候安装 Debian 软件包。

0 投票
1 回答
1244 浏览

google-cloud-dataflow - 如何在 Dataflow 中创建用户定义的计数器?

如何在我的 DoFns 中创建自己的计数器?

在我的 DoFn 中,我想在处理记录时每次满足条件时增加一个计数器。我希望这个计数器对所有记录的值求和。

0 投票
1 回答
143 浏览

google-cloud-dataflow - DoFn.Context.output() 是否复制对象?

DoFn.Context.output() 是否复制对象?

调用输出后重用对象是否安全?例如,下面的代码会输出 10 条相同时间戳的记录还是 10 条不同时间戳的记录?

0 投票
2 回答
553 浏览

avro - 为什么 AvroCoder 不是确定性的?

AvroCoder.isDeterministic返回 false。

为什么 AvroCoder 不是确定性的?Avro 记录不会总是被编码成相同的字节流吗?

由于 Avro 编码器不是确定性的,因此 Avro 记录不能用作分组操作的键。将 Avro 唱片变成钥匙的最佳方法是什么?我们应该只使用 Avro 记录的 json 表示吗?

0 投票
1 回答
1562 浏览

google-cloud-dataflow - 如何创建自定义编码器?

我正在尝试创建一个基于AvroCoder但为 isDeterministic 返回 true 的自定义编码器 AvroDeterministicCoder

在我的示例数据流中,我为我的所有 PCollection 注册了这个编码器。但是,当我运行测试时,它最终会引发异常: the key coder must be deterministic for grouping.

使用我的调试器,我可以看出它使用的是编码器 AvroCoder。

AvroDeterministicCoder中,我是否需要添加代码以使AvroDeterministicCoder反序列化为AvroDeterministicCoder 而不是 AvroCoder?

0 投票
1 回答
55 浏览

google-cloud-dataflow - 如何修复异常“DataflowAssert 需要链接 JUnit 和 Hamcrest”?

运行使用 DataflowAssert 的 Dataflow unittest 时出现异常

我需要将哪些依赖项添加到我的 pom 文件中才能修复此异常?

0 投票
3 回答
106 浏览

google-cloud-dataflow - 使用 --runner=BlockingDataflowPipelineRunner 运行示例时出现“错误请求”错误

我是谷歌计算引擎的新手,所以这可能是一个新手失败。

我正在尝试从GitHub 项目运行 WordCount 示例。DirectPipelineRunner 工作正常,但是当我尝试使用 BlockingDataflowPipelineRunner 时,我收到“错误请求”错误。请注意,我通过gcloud auth login.

这是命令行和后续错误

我正在使用 Maven 3、Java 8 和 Ubuntu 14.04。

有任何想法吗?

编辑:也许我没有正确认证?错误包含此链接。这会很奇怪,因为我可以使用本地运行程序写入 gs://theia,并且可以在我的 Google Cloud 项目控制台中看到一个 Dataflow 选项卡。