2

s3 select用来读取存储在 S3 存储桶中的大型镶木地板文件的前 10 行。我能够获得csv格式的前 10 行,但它没有任何标题。它只包含没有任何列名的行。

有什么方法可以像我们一样获取这个 parquet 文件的标题或 CSV 文件?在 CSV 文件中,我们可以设置FileHeaderInfo参数IGNORE来获取标题。无论如何也对镶木地板文件做同样的事情吗?

如果没有,有没有其他方法可以读取这个 parquet 文件的前 10 行,以便我可以获取 parquet 数据的标题?

我正在阅读使用InputSerialization文档中描述的以下逻辑的 S3 选择:

        SelectObjectContentRequest request = new SelectObjectContentRequest();
        request.setBucketName(bucket);
        request.setKey(key);
        request.setExpression(query);
        request.setExpressionType(ExpressionType.SQL);

        InputSerialization inputSerialization = new InputSerialization();
        inputSerialization.setParquet(new ParquetInput());
        inputSerialization.setCompressionType(CompressionType.NONE);
        request.setInputSerialization(inputSerialization);

        OutputSerialization outputSerialization = new OutputSerialization();
        outputSerialization.setCsv(new CSVOutput());
        request.setOutputSerialization(outputSerialization);

        return request;
4

0 回答 0