9

我正在使用 parquet 框架来编写 parquet 文件。我用这个构造函数创建了镶木地板作家——

public class ParquetBaseWriter<T extends HashMap> extends ParquetWriter<T> {
    public ParquetBaseWriter(Path file, HashMap<String, SchemaField> mySchema,
                             CompressionCodecName compressionCodecName, int blockSize,
                             int pageSize) throws IOException {
        super(file, ParquetBaseWriter.<T>writeSupport(mySchema),
                compressionCodecName, blockSize, pageSize, DEFAULT_IS_DICTIONARY_ENABLED, false);
    }

每次创建 parquet 文件时,也会在磁盘上创建一个与其对应的 .crc 文件。如何避免创建该 .crc 文件?有没有我必须设置的标志或其他东西?

谢谢

4

1 回答 1

2

您可以看到这个关于 crc 文件的 google 群组讨论: https ://groups.google.com/a/cloudera.org/forum/#!topic/cdk-dev/JR45MsLeyTE

TL;DR - crc 文件不会占用 NN 命名空间中的任何开销。它们不是 HDFS 数据文件,它们是数据目录中的元文件。如果您使用“file:///”URI,您将在本地文件系统中看到它们。

于 2016-08-18T06:40:35.330 回答