问题标签 [google-cloud-dataflow]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4588 问题

0 投票

1 回答

665 浏览

google-bigquery - Cloud Dataflow 中的“辅助输入”是否支持从 BigQuery 视图中读取？

尝试将侧输入指向 BigQuery 视图，而不是直接指向 BigQuery 表。它不会产生错误，而只是返回 0 行。View 在 BigQuery 中运行良好。

例如，给定一个引用只有 1 行的表“types_test”的视图：

在此处输入图像描述

在 BigQuery 中，它运行良好：

在此处输入图像描述

但是在 Dataflow 中使用视图作为侧输入返回 0 行：

侧输入是否支持 BigQuery 中的视图，或者您是否需要执行其他操作才能将视图用于侧输入？

google-bigquery google-cloud-dataflow

2015-03-20T22:32:56.860

0 投票

1 回答

201 浏览

google-cloud-dataflow - BigQuery 的表装饰器的 Cloud Dataflow 等效项是什么？

我们在 BigQuery 中有一个大表，数据正在流入其中。每天晚上，我们都想运行处理过去 24 小时数据的 Cloud Dataflow 管道。

在 BigQuery 中，可以使用“表装饰器”来执行此操作，并指定我们想要的范围，即 24 小时。

从 BQ 表中读取时，Dataflow 中是否可能以某种方式实现相同的功能？

我们已经查看了 Dataflow 的“ Windows ”文档，但我们无法确定这是否是我们需要的。到目前为止，我们想出了这个（我们希望最后 24 小时的数据使用FixedWindows），但它仍然尝试读取整个表：

我们走在正确的轨道上吗？

google-cloud-dataflow

2015-03-23T23:05:55.297

0 投票

1 回答

658 浏览

google-cloud-dataflow - 如何更改 Cloud Dataflow 中的实例区域？

我尝试在我的 gcp 项目中运行 DataflowJavaSDK WordCount 示例，但消息显示：

工作流失败。原因：（638fd23bd03812d4）：内部错误：工作流失败。请联系 dataflow-feedback@google.com。原因：（e52def24e835d7ad）：在区域 us-central1 中执行项目 my-project 工作流的配额不足，3 个实例需要 12 个 CPU，3000 磁盘 GB，0 SSD 磁盘 GB，3 个正在使用的 IP 地址，可用 9 个 CPU、2770 磁盘 GB、1024 SSD 磁盘 GB、12 个正在使用的 IP 地址。

我想将 us-central1 更改为 europe-west1，因为有足够的配额可以运行示例。

可以换区吗？

（对不起我的英语不好......）

google-cloud-dataflow

2015-03-24T10:03:08.827

0 投票

1 回答

725 浏览

maven - Maven 无法编译 Google Cloud Dataflow SDK

我无法编译 Google Cloud Dataflow SDK。执行“mvn install”时出现错误：

maven google-cloud-dataflow

2015-03-25T13:33:16.303

0 投票

1 回答

1218 浏览

google-cloud-dataflow - 在 Google Cloud Dataflow 上执行 WordCount 时出现错误 403

我正在尝试执行 Google Cloud Dataflow 的字数统计示例：

不幸的是，我收到一个错误：

知道可能出了什么问题吗？我可以成功地使用 gsutil cp 将文件复制到我的谷歌云存储桶上。

google-cloud-dataflow

2015-03-26T11:24:26.217

0 投票

2 回答

87 浏览

google-cloud-dataflow - 我可以比较单元测试中记录的序列化表示吗？

在我的 DoFo 的单元测试中，是否可以通过比较记录的序列化表示来断言输出与预期输出匹配？

我已经定义了一个使用默认 avro 编码器的记录，例如

我正在为使用 DoFnTester 生成 JobLogMessage 列表的 DoFn 编写单元测试，例如

我想验证输出是否与预期输出匹配。但是，如果我只使用 assertEquals，我认为除非我在 JobLogMessage 中显式重载 equals，否则它将使用不会正确评估相等性的 equals 方法。

我想做的是通过比较 AvroCoder 生成的序列化字节表示来比较预期的和实际的 JobLogMessage。Dataflow 是否为此提供任何便利方法？

google-cloud-dataflow

2015-03-29T21:16:42.043

0 投票

1 回答

540 浏览

bigdata - 如何开始学习 Google Cloud Dataflow？

我正在学习计算机工程。我正在考虑学习 Google Cloud Dataflow。

所以我想问问作为UG的学生学习Google Cloud Dataflow好不好。此外，我对大数据或 Hadoop 没有太多经验。

如果是，那么我该如何开始学习呢？

bigdata google-bigquery google-cloud-platform google-cloud-dataflow

2015-03-30T12:59:26.823

0 投票

1 回答

429 浏览

google-cloud-dataflow - 如何一次处理 GCS 文件模式，完整文件？

我需要处理一个（GCS）文件桶，其中每个文件都被压缩并包含一个多行 JSON 记录。此外，正在处理的文件的名称很重要，我需要在我的转换中知道它。

从文档中的示例开始，TextIO 看起来非常接近，但看起来它旨在逐行处理每个文件，并且不允许我一次读取整个文件。另外，我没有看到任何方法来获取正在处理的文件名？

看起来我需要编写一个自定义的 IO 阅读器，或者类似的东西？关于最佳起点的任何提示？

google-cloud-dataflow

2015-03-31T15:16:27.957

0 投票

1 回答

1006 浏览

google-cloud-dataflow - 在 Dataflow 中处理 GCS 文件的最佳方法？

我有一个匹配的 GCS 文件名的 PCollection，每个文件名都包含一个压缩的 JSON blob。读取整个文件、解压缩（Gzip 格式）和 JSON 解码的最佳方法是什么？

TextIO 非常接近，但每行读取数据。
GCS API 提供了如何读取整个文件的示例，但它不处理解压缩，并导致我重新实现许多核心功能。

是否有任何现有的 API 和/或示例可以让我领先一步？似乎这将是一个非常常见的用例。

google-cloud-dataflow

2015-04-03T05:44:56.457

0 投票

1 回答

133 浏览

google-cloud-dataflow - 工作程序池缩小时出错：“不能缩小规模而不丢失活动的随机数据”

更新到最新的 SDK 版本0.3.150326，由于此错误，我们的作业失败：

(d0f58ccaf368cf1f)：工作流程失败。原因：（539037ea87656484）：无法在不丢失活动随机播放数据的情况下缩小尺寸。旧尺寸 = 10，新尺寸 = 8。

职位编号：2015-04-02_21_26_53-11930390736602232537

无法重现，但我想我应该问这是否是已知问题？

查看文档，看来自动缩放目前只是“实验性的”，但我原以为这是 Cloud Dataflow 的核心功能，因此应该得到完全支持。

google-cloud-dataflow

2015-04-03T05:58:35.373

1 2 3 4 5 6 7 8 9 10