Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想将一天的 avro 数据(~2 TB)转换为镶木地板。
我运行了一个蜂巢查询,数据成功转换为镶木地板。
但是数据大小变成了 6 TB。
数据变成原来的三倍会怎样?
通常,Parquet 可以比 Avro 更有效,因为它是一种列格式,相同类型的列在磁盘上是相邻的。这允许压缩算法在某些情况下更有效。通常我们使用 Snappy,它在 CPU 上足够、容易,并且相对于 zip 或 gzip 等其他压缩方法,它具有使其适用于 Hadoop 的几个属性。主要是 snappy 是可拆分的;每个块保留确定模式所需的信息。MParquet 是一种很棒的格式,从 Avro 迁移后,我们对查询性能非常满意(我们也可以使用超快的 Impapla)。