0

我希望使用胶水将数据从源摄取到 s3。是否可以将胶水中摄取的数据压缩到指定值?例如:将数据压缩到 500 MB 并且还可以根据提供的压缩值对数据进行分区?如果是,如何启用此功能?我正在用 Python 编写胶水脚本。

4

1 回答 1

0

压缩和分组是相似的术语。压缩发生在镶木地板输出上。但是,您可以使用 'groupSize': '31457280' (30 mb) 来指定输出文件的动态帧的大小(并且是默认输出大小)(至少其中大多数,最后一个文件将是其余的)。此外,您需要小心/利用 Glue CPU 类型和数量。比如最大容量 10,工人类型标准。G.2X 倾向于创建太多的小文件(这将/全部取决于您的情况/输入。)如果您什么都不做,只是读取许多小文件并将它们原封不动地写入一个大组,它们将被“默认压缩/分组” " 进入 "groupsize"。如果您想看到文件写入大小的大幅减少,请将输出格式化为镶木地板。胶水上下文。

于 2021-11-15T21:31:11.323 回答