问题标签 [google-cloud-dataflow]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4588 问题

0 投票

4 回答

534 浏览

google-cloud-dataflow - 谷歌云数据流虚拟机上的 jstack 和其他工具

有没有办法在为 Dataflow 作业创建的虚拟机上运行 jstack？我正在尝试查看作业在哪里花费了大部分 CPU 时间，但我找不到它已安装。

谢谢，G

google-cloud-dataflow

2015-01-05T15:33:43.837

0 投票

1 回答

143 浏览

google-cloud-dataflow - 数据流作业中同一类的不同编码器

我正在尝试在两个不同的场景中为同一个类使用不同的编码器：

从 JSON 输入文件中读取 - 使用data = TextIO.Read.from(options.getInput()).withCoder(new Coder1())
在工作的其他地方，我希望使用SerializableCoderusingdata.setCoder(SerializableCoder.of(MyClass.class)

它在本地工作，但在云中运行时失败

它是受支持的方案吗？这样做的原因首先是为了避免读取/写入 JSON 格式，另一方面使从输入文件中读取更高效（UTF-8 解析是 JSON 读取器的一部分，因此可以直接从 InputStream 读取)

澄清：Coder1 是我的编码器。

另一个编码器是 SerializableCoder.of(MyClass.class)

系统如何选择使用哪个编码器？这两种格式是二进制不兼容的，看起来由于一些优化，第二个编码器用于只能由第一个编码器读取的数据格式。

google-cloud-dataflow

2015-01-05T22:55:35.400

0 投票

1 回答

160 浏览

google-cloud-dataflow - 云数据流中 SerializableFunction 的线程安全

我正在实现 SerializableFunction 接口，我想重用我在构造函数中创建的一些昂贵的辅助对象。在数据流作业中使用此类时，是否为每个使用它的线程创建/克隆了一个新实例？

谢谢，格纳迪

google-cloud-dataflow

2015-01-06T16:23:00.693

0 投票

1 回答

2170 浏览

google-cloud-dataflow - 谷歌云数据流作业的机器类型

我注意到有一个选项允许指定机器类型。我应该使用什么标准来决定是否覆盖默认机器类型？

在一些实验中，我发现较小的实例的吞吐量更好，但另一方面，当使用许多小实例而不是较少数量的默认实例时，作业往往会遇到更多的“系统”故障。

谢谢，G

google-cloud-dataflow

2015-01-07T12:47:22.720

0 投票

2 回答

404 浏览

google-cloud-dataflow - 创建 GCE 虚拟机或启动 Dataflow 时出错

我在尝试提交的最近作业中遇到以下错误：

没有其他错误。

这个错误是什么意思？

google-cloud-dataflow

2015-01-07T15:56:15.490

0 投票

1 回答

141 浏览

google-cloud-dataflow - 在 Google Cloud Dataflow 的每个 GCE 实例中实例化了多少个 JVM？

我是否总是保证每个 GCE 实例恰好有 1 个数据流工作者 JVM，或者我是否最终会遇到调度程序在单个 GCE 实例上启动多个 JVM 的情况 - 例如，如果可能有许多转换准备好运行，但运行它们的 GCE 实例相对较少？

google-cloud-dataflow

2015-01-07T17:56:32.003

0 投票

2 回答

1469 浏览

google-cloud-dataflow - groupBy 后吞吐量缓慢

我注意到在我的工作中，吞吐量（报告的记录数/秒）在“分组”步骤之后显着减慢。当该工作流步骤执行时，我看到某些实例的 CPU 利用率约为 30%，而有些实例似乎处于空闲状态。

是数据流问题还是我应该以某种方式指示工作流增加此步骤的并行性？

谢谢，G

google-cloud-dataflow

2015-01-13T12:25:15.253

0 投票

1 回答

77 浏览

google-cloud-dataflow - 如何为 DataflowPipelineWorkerPoolOptions.setDiskSourceImage 选择图像

对上述方法可以使用的图像有什么特殊要求吗？简单地选择图像部分中的图像之一似乎不起作用。

谢谢，G

google-cloud-dataflow

2015-01-13T16:33:44.963

0 投票

1 回答

40 浏览

google-cloud-dataflow - 仅对数据流实例的根访问

是否可以配置一个访问策略，允许作业创建者（或者最好是有权访问项目的任何人）访问创建的实例，而不授予对 Google Cloud 项目中其他机器的类似访问权限（例如，生产机器）？

再次感谢，G

google-cloud-dataflow

2015-01-13T20:29:44.500

0 投票

1 回答

178 浏览

google-cloud-dataflow - 如何从具有不同架构的 Avro 文件构建数据流集合？

当每个文件的架构可能是 N 个不同架构之一时，如何从 Avro 文件构造 PCollection？

我们只想指定一个匹配所有 avro 文件的 glob 路径，并且我们想使用单个 Avro 源而不是为每个文件构建一个新的 Avro 源？

google-cloud-dataflow

2015-01-15T05:54:59.750

1 2 3 4 5 6 7 8 9 10