2

这在文档中并不清楚,但看起来BigQueryIO.write执行流式写入,从而将行大小限制为 <20KB

是否可以配置支持更大 (1MB) 行大小的非流式 BigQuery 写入?我的 DataFlow 作业是批处理作业,而不是流式作业,BigQuery 流式传输不是必需的,在这种情况下也是不受欢迎的,因为它限制了我导入数据。

如果不是,将大行导入 BigQuery 的推荐工作流程是什么?我想我可以运行 DataFlow ETL 并使用 TextIO 将我的数据写入文本文件,但是我必须在此管道之外添加一个手动步骤来触发 BQ 导入?

4

1 回答 1

1

批处理 Datflow 作业不会将数据流式传输到 BigQuery。数据被写入 GCS,然后我们执行 BigQuery 导入作业来导入 GCS 文件。所以流媒体限制不应该适用。

请注意,导入作业是由服务而不是工作人员执行的,这就是您在 BigQueryIO.write 中看不到此代码的原因。

于 2015-04-13T21:55:02.367 回答