问题标签 [google-cloud-dataflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
665 浏览

google-bigquery - Cloud Dataflow 中的“辅助输入”是否支持从 BigQuery 视图中读取?

尝试将侧输入指向 BigQuery 视图,而不是直接指向 BigQuery 表。它不会产生错误,而只是返回 0 行。View 在 BigQuery 中运行良好。

例如,给定一个引用只有 1 行的表“types_test”的视图:

在此处输入图像描述

在 BigQuery 中,它运行良好:

在此处输入图像描述

但是在 Dataflow 中使用视图作为侧输入返回 0 行:

侧输入是否支持 BigQuery 中的视图,或者您是否需要执行其他操作才能将视图用于侧输入?

0 投票
1 回答
201 浏览

google-cloud-dataflow - BigQuery 的表装饰器的 Cloud Dataflow 等效项是什么?

我们在 BigQuery 中有一个大表,数据正在流入其中。每天晚上,我们都想运行处理过去 24 小时数据的 Cloud Dataflow 管道。

在 BigQuery 中,可以使用“表装饰器”来执行此操作,并指定我们想要的范围,即 24 小时。

从 BQ 表中读取时,Dataflow 中是否可能以某种方式实现相同的功能?

我们已经查看了 Dataflow 的“ Windows ”文档,但我们无法确定这是否是我们需要的。到目前为止,我们想出了这个(我们希望最后 24 小时的数据使用FixedWindows),但它仍然尝试读取整个表:

我们走在正确的轨道上吗?

0 投票
1 回答
658 浏览

google-cloud-dataflow - 如何更改 Cloud Dataflow 中的实例区域?

我尝试在我的 gcp 项目中运行 DataflowJavaSDK WordCount 示例,但消息显示:

工作流失败。原因:(638fd23bd03812d4):内部错误:工作流失败。请联系 dataflow-feedback@google.com。原因:(e52def24e835d7ad):在区域 us-central1 中执行项目 my-project 工作流的配额不足,3 个实例需要 12 个 CPU,3000 磁盘 GB,0 SSD 磁盘 GB,3 个正在使用的 IP 地址,可用 9 个 CPU、2770 磁盘 GB、1024 SSD 磁盘 GB、12 个正在使用的 IP 地址。

我想将 us-central1 更改为 europe-west1,因为有足够的配额可以运行示例。

可以换区吗?

(对不起我的英语不好......)

0 投票
1 回答
725 浏览

maven - Maven 无法编译 Google Cloud Dataflow SDK

我无法编译 Google Cloud Dataflow SDK。执行“mvn install”时出现错误:

0 投票
1 回答
1218 浏览

google-cloud-dataflow - 在 Google Cloud Dataflow 上执行 WordCount 时出现错误 403

我正在尝试执行 Google Cloud Dataflow 的字数统计示例:

不幸的是,我收到一个错误:

知道可能出了什么问题吗?我可以成功地使用 gsutil cp 将文件复制到我的谷歌云存储桶上。

0 投票
2 回答
87 浏览

google-cloud-dataflow - 我可以比较单元测试中记录的序列化表示吗?

在我的 DoFo 的单元测试中,是否可以通过比较记录的序列化表示来断言输出与预期输出匹配?

我已经定义了一个使用默认 avro 编码器的记录,例如

我正在为使用 DoFnTester 生成 JobLogMessage 列表的 DoFn 编写单元测试,例如

我想验证输出是否与预期输出匹配。但是,如果我只使用 assertEquals,我认为除非我在 JobLogMessage 中显式重载 equals,否则它将使用不会正确评估相等性的 equals 方法。

我想做的是通过比较 AvroCoder 生成的序列化字节表示来比较预期的和实际的 JobLogMessage。Dataflow 是否为此提供任何便利方法?

0 投票
1 回答
540 浏览

bigdata - 如何开始学习 Google Cloud Dataflow?

我正在学习计算机工程。我正在考虑学习 Google Cloud Dataflow。

所以我想问问作为UG的学生学习Google Cloud Dataflow好不好。此外,我对大数据或 Hadoop 没有太多经验。

如果是,那么我该如何开始学习呢?

0 投票
1 回答
429 浏览

google-cloud-dataflow - 如何一次处理 GCS 文件模式,完整文件?

我需要处理一个(GCS)文件桶,其中每个文件都被压缩并包含一个多行 JSON 记录。此外,正在处理的文件的名称很重要,我需要在我的转换中知道它。

从文档中的示例开始,TextIO 看起来非常接近,但看起来它旨在逐行处理每个文件,并且不允许我一次读取整个文件。另外,我没有看到任何方法来获取正在处理的文件名?

看起来我需要编写一个自定义的 IO 阅读器,或者类似的东西?关于最佳起点的任何提示?

0 投票
1 回答
1006 浏览

google-cloud-dataflow - 在 Dataflow 中处理 GCS 文件的最佳方法?

我有一个匹配的 GCS 文件名的 PCollection,每个文件名都包含一个压缩的 JSON blob。读取整个文件、解压缩(Gzip 格式)和 JSON 解码的最佳方法是什么?

  • TextIO 非常接近,但每行读取数据。
  • GCS API 提供了如何读取整个文件的示例,但它不处理解压缩,并导致我重新实现许多核心功能。

是否有任何现有的 API 和/或示例可以让我领先一步?似乎这将是一个非常常见的用例。

0 投票
1 回答
133 浏览

google-cloud-dataflow - 工作程序池缩小时出错:“不能缩小规模而不丢失活动的随机数据”

更新到最新的 SDK 版本0.3.150326,由于此错误,我们的作业失败:

(d0f58ccaf368cf1f):工作流程失败。原因:(539037ea87656484):无法在不丢失活动随机播放数据的情况下缩小尺寸。旧尺寸 = 10,新尺寸 = 8。

职位编号:2015-04-02_21_26_53-11930390736602232537

无法重现,但我想我应该问这是否是已知问题?

查看文档,看来自动缩放目前只是“实验性的”,但我原以为这是 Cloud Dataflow 的核心功能,因此应该得到完全支持。