-1

我想将一天的 avro 数据(~2 TB)转换为镶木地板。

我运行了一个蜂巢查询,数据成功转换为镶木地板。

但是数据大小变成了 6 TB。

数据变成原来的三倍会怎样?

4

1 回答 1

-1

通常,Parquet 可以比 Avro 更有效,因为它是一种列格式,相同类型的列在磁盘上是相邻的。这允许压缩算法在某些情况下更有效。通常我们使用 Snappy,它在 CPU 上足够、容易,并且相对于 zip 或 gzip 等其他压缩方法,它具有使其适用于 Hadoop 的几个属性。主要是 snappy 是可拆分的;每个块保留确定模式所需的信息。MParquet 是一种很棒的格式,从 Avro 迁移后,我们对查询性能非常满意(我们也可以使用超快的 Impapla)。

于 2016-04-17T14:45:01.920 回答