问题标签 [google-cloud-dataflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2002 浏览

google-cloud-dataflow - 如何使用在 Dataflow 执行期间计算的架构写入 BigQuery?

我有以下情况:

  1. 管道 A 在 BigQuery 中查找表 A,进行一些计算并返回列名列表。
  2. 此列名称列表用作管道 B 输出的 BigQuery 架构。

您能否让我知道实现这一目标的最佳选择是什么?

管道 A 可以使用 TextIO 将列名列表写入临时或暂存位置文件,然后管道执行程序读取这些文件以定义管道 B 的架构。如果这种方法看起来不错,请告诉我是否有数据流实用程序,用于从临时或暂存位置读取文件,或者是否应使用 GCS API。

0 投票
1 回答
130 浏览

google-cloud-dataflow - Cloud Dataflow 自动扩缩消息

根据常见问题解答,当启动工作池时,默认情况下自动缩放是关闭的。我们使用枚举将“numworkers”设置为 5,并将算法类型设置为“NONE”AutoscalingAlgorithmType

但是,当我们的作业运行时,我们仍然会看到以下消息:

(f8775c76163306ae):自动缩放:将工作池的大小从 0 调整为 1。

据我们所知,这并没有造成问题,但我想知道为什么我们会看到这个,以及它是否是故意的?

0 投票
4 回答
1549 浏览

google-cloud-dataflow - Google Cloud Dataflow:使用 DirectPipelineRunner(本地作业)在管道中访问 Google Cloud Pub/Sub?

我已经使用 Google Cloud Dataflow SDK 编写了一个流式传输管道,但我想在本地测试我的管道。我的管道从 Google Pub/Sub 获取输入数据。

是否可以使用 DirectPipelineRunner(本地执行,不在 Google Cloud 中)运行访问 Pub/Sub (pubsubIO) 的作业?

以我的普通用户帐户登录时遇到权限问题。我是项目的所有者,我尝试访问的 pub/sub 主题。

0 投票
1 回答
1619 浏览

google-cloud-dataflow - 区域“asia-east1-[abc]”越来越多地遭遇资源枯竭

我们位于澳大利亚,因此我们选择运行 Cloud Dataflow 管道的逻辑区域是 SEA 区域之一,即 asia-east1-x

在过去的几天里,我们收到了一个错误,表明该区域没有足够的资源来满足请求:

2015-04-13T04:36:14.135Z:(87beb4ec714a2776):工作流程失败。原因:(21d127c58eb9cdaf):步骤 setup_resource_global_gce_worker_pool2:设置资源 global_gce_worker_pool 失败原因:(21d127c58eb9cf88):一个或多个操作出现错误:'operation-1428899724019-51393a4784539-e52869ff-98f5905a'已移除项目: /zones/asia-east1-a' 没有足够的资源来满足请求。尝试不同的区域,或稍后再试。

很清楚问题出在哪里,但我们只在工作池中请求 5-10 个实例——这并不是一个很大的请求量。

为什么仅在最近几天就开始出现此错误,这是一个将要修复的已知问题吗?

0 投票
1 回答
159 浏览

google-cloud-dataflow - 使用 BigQueryIO 写入大型 (>20KB) 记录

这在文档中并不清楚,但看起来BigQueryIO.write执行流式写入,从而将行大小限制为 <20KB

是否可以配置支持更大 (1MB) 行大小的非流式 BigQuery 写入?我的 DataFlow 作业是批处理作业,而不是流式作业,BigQuery 流式传输不是必需的,在这种情况下也是不受欢迎的,因为它限制了我导入数据。

如果不是,将大行导入 BigQuery 的推荐工作流程是什么?我想我可以运行 DataFlow ETL 并使用 TextIO 将我的数据写入文本文件,但是我必须在此管道之外添加一个手动步骤来触发 BQ 导入?

0 投票
1 回答
536 浏览

google-cloud-dataflow - 数据流 GroupByKey 转换拆分输入行

我运行数据流作业以从存储在 GCS 中的文件中读取数据,每条记录都有一个“事件类型”,我的目标是按“事件类型”拆分数据并将每个输出写入 bq 表,现在我正在使用一个过滤器来执行此操作,但是我想尝试 GroupByKey 转换,它希望可以使流程动态化,因为新的事件类型将随着时间的推移流入,这在开发时无法预测。所以现在我的挑战是,我不知道是否可以为每个 KEY(来自输出 GroupByKey 的密钥)构造一个 WRITE 转换?如果它可行或任何其他方式可以实现这一目标将是理想的,任何建议将不胜感激

0 投票
1 回答
489 浏览

google-cloud-dataflow - PubsubFileInjector 无法提交到 PubSub 主题

我想使用 com.google.cloud.dataflow.examples.PubsubFileInjector 将 GCS 文件转换为 pubsub 事件。

但是,当我提交管道时,如下所示:

管道运行时出现以下错误:

但是我确定我的主题名称是正确的。它遵循https://cloud.google.com/pubsub/overview#names中所述的规则。当我列出我所有的主题时,主题就会出现。

0 投票
3 回答
2812 浏览

google-app-engine - 如何从 App Engine 运行 Google Cloud Dataflow 作业?

阅读 Cloud Dataflow 文档后,我仍然不确定如何从 App Engine 运行我的数据流作业。可能吗?我的后端是用 Python 还是用 Java 编写的,这是否相关?谢谢!

0 投票
1 回答
173 浏览

google-cloud-dataflow - 在 Dataflow 工作器上执行时更改管道选项会发生什么?

如果我在 Dataflow 工作线程上执行时更改管道选项,会发生什么情况?

PipelineOptions 的公共文档是:https ://cloud.google.com/dataflow/java-sdk/JavaDoc/com/google/cloud/dataflow/sdk/options/PipelineOptions

0 投票
1 回答
350 浏览

google-cloud-dataflow - 谷歌数据流失败

测试了一段时间的数据流,今天我遇到了一些失败,错误消息是:

原因:(b8a42e32d0888f60):无法重命名来自 gs://clickstream_current/tmp/dataflow/staging/clickstream/8977742977819433140/dax-tmp-2015-04-14_15_58_06-5441905562239213266-S01-ef96666-S01-ef9666a/DAX-tmp-2015-04-14_15_58_06-5441905562239213266-S01-ef96667/的输出文件到 gs://clickstream_current/tmp/dataflow/staging/clickstream/8977742977819433140/@*.json。原因:(b8a42e32d0888fdb):无法重命名“gs://clickstream_current/tmp/dataflow/staging/clickstream/8977742977819433140/dax-tmp-2015-04-14_15_58_06-5441905562239213266-S01-1-e70068-bshard-060968 -00940-endshard.json”到“gs://clickstream_current/tmp/dataflow/staging/clickstream/8977742977819433140/-00000-of-00940.json。

这可能是GCS问题吗?除了失败还有警告抱怨“无法从 GCS 文件夹中删除临时文件”我能做些什么来避免它?