除了减少流中的转换数量(或者可能减少流图中所有转换对象的总序列化大小)之外,有关如何解决此错误的任何建议?
谢谢,
Dataflow 目前在我们的系统中有一个限制,将请求限制为 1MB。作业的大小专门与管道的 JSON 表示相关联;更大的管道意味着更大的请求。
我们正在努力提高这个限制。同时,您可以通过将您的工作分解为更小的工作来解决此限制,这样每个工作描述占用的空间小于 1MB
要估计您的请求的大小,请使用选项运行您的管道
--dataflowJobFile = <path to output file>
这会将您的作业的 JSON 表示形式写入文件。该文件的大小可以很好地估计请求的大小。由于请求中包含附加信息,请求的实际大小会稍大一些。
感谢您的耐心等待。
一旦限制增加,我们将更新此线程。
您是否将大量数据序列化为管道规范的一部分?例如,您是否使用Create Transform从内联数据创建 PCollections?
你能分享一下json文件吗?如果您不想公开分享,可以私下通过电子邮件将其发送给 Dataflow 团队。
这已于 2018 年 11 月 16 日合并到 Beam 中。在将其包含在 Dataflow 之前应该不会太久。