问题标签 [google-cloud-dataflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-bigquery - Cloud Dataflow 中的“辅助输入”是否支持从 BigQuery 视图中读取?
尝试将侧输入指向 BigQuery 视图,而不是直接指向 BigQuery 表。它不会产生错误,而只是返回 0 行。View 在 BigQuery 中运行良好。
例如,给定一个引用只有 1 行的表“types_test”的视图:
在 BigQuery 中,它运行良好:
但是在 Dataflow 中使用视图作为侧输入返回 0 行:
侧输入是否支持 BigQuery 中的视图,或者您是否需要执行其他操作才能将视图用于侧输入?
google-cloud-dataflow - 如何更改 Cloud Dataflow 中的实例区域?
我尝试在我的 gcp 项目中运行 DataflowJavaSDK WordCount 示例,但消息显示:
工作流失败。原因:(638fd23bd03812d4):内部错误:工作流失败。请联系 dataflow-feedback@google.com。原因:(e52def24e835d7ad):在区域 us-central1 中执行项目 my-project 工作流的配额不足,3 个实例需要 12 个 CPU,3000 磁盘 GB,0 SSD 磁盘 GB,3 个正在使用的 IP 地址,可用 9 个 CPU、2770 磁盘 GB、1024 SSD 磁盘 GB、12 个正在使用的 IP 地址。
我想将 us-central1 更改为 europe-west1,因为有足够的配额可以运行示例。
可以换区吗?
(对不起我的英语不好......)
maven - Maven 无法编译 Google Cloud Dataflow SDK
我无法编译 Google Cloud Dataflow SDK。执行“mvn install”时出现错误:
google-cloud-dataflow - 在 Google Cloud Dataflow 上执行 WordCount 时出现错误 403
我正在尝试执行 Google Cloud Dataflow 的字数统计示例:
不幸的是,我收到一个错误:
知道可能出了什么问题吗?我可以成功地使用 gsutil cp 将文件复制到我的谷歌云存储桶上。
google-cloud-dataflow - 我可以比较单元测试中记录的序列化表示吗?
在我的 DoFo 的单元测试中,是否可以通过比较记录的序列化表示来断言输出与预期输出匹配?
我已经定义了一个使用默认 avro 编码器的记录,例如
我正在为使用 DoFnTester 生成 JobLogMessage 列表的 DoFn 编写单元测试,例如
我想验证输出是否与预期输出匹配。但是,如果我只使用 assertEquals,我认为除非我在 JobLogMessage 中显式重载 equals,否则它将使用不会正确评估相等性的 equals 方法。
我想做的是通过比较 AvroCoder 生成的序列化字节表示来比较预期的和实际的 JobLogMessage。Dataflow 是否为此提供任何便利方法?
bigdata - 如何开始学习 Google Cloud Dataflow?
我正在学习计算机工程。我正在考虑学习 Google Cloud Dataflow。
所以我想问问作为UG的学生学习Google Cloud Dataflow好不好。此外,我对大数据或 Hadoop 没有太多经验。
如果是,那么我该如何开始学习呢?
google-cloud-dataflow - 如何一次处理 GCS 文件模式,完整文件?
我需要处理一个(GCS)文件桶,其中每个文件都被压缩并包含一个多行 JSON 记录。此外,正在处理的文件的名称很重要,我需要在我的转换中知道它。
从文档中的示例开始,TextIO 看起来非常接近,但看起来它旨在逐行处理每个文件,并且不允许我一次读取整个文件。另外,我没有看到任何方法来获取正在处理的文件名?
看起来我需要编写一个自定义的 IO 阅读器,或者类似的东西?关于最佳起点的任何提示?
google-cloud-dataflow - 在 Dataflow 中处理 GCS 文件的最佳方法?
我有一个匹配的 GCS 文件名的 PCollection,每个文件名都包含一个压缩的 JSON blob。读取整个文件、解压缩(Gzip 格式)和 JSON 解码的最佳方法是什么?
- TextIO 非常接近,但每行读取数据。
- GCS API 提供了如何读取整个文件的示例,但它不处理解压缩,并导致我重新实现许多核心功能。
是否有任何现有的 API 和/或示例可以让我领先一步?似乎这将是一个非常常见的用例。
google-cloud-dataflow - 工作程序池缩小时出错:“不能缩小规模而不丢失活动的随机数据”
更新到最新的 SDK 版本0.3.150326,由于此错误,我们的作业失败:
(d0f58ccaf368cf1f):工作流程失败。原因:(539037ea87656484):无法在不丢失活动随机播放数据的情况下缩小尺寸。旧尺寸 = 10,新尺寸 = 8。
职位编号:2015-04-02_21_26_53-11930390736602232537
无法重现,但我想我应该问这是否是已知问题?
查看文档,看来自动缩放目前只是“实验性的”,但我原以为这是 Cloud Dataflow 的核心功能,因此应该得到完全支持。