java - s3 select：如何获取镶木地板文件的列名？

问问题 2019-08-11T07:43:07.277

527 次

我s3 select用来读取存储在 S3 存储桶中的大型镶木地板文件的前 10 行。我能够获得csv格式的前 10 行，但它没有任何标题。它只包含没有任何列名的行。

有什么方法可以像我们一样获取这个 parquet 文件的标题或 CSV 文件？在 CSV 文件中，我们可以设置FileHeaderInfo参数IGNORE来获取标题。无论如何也对镶木地板文件做同样的事情吗？

如果没有，有没有其他方法可以读取这个 parquet 文件的前 10 行，以便我可以获取 parquet 数据的标题？

我正在阅读使用InputSerialization文档中描述的以下逻辑的 S3 选择：

        SelectObjectContentRequest request = new SelectObjectContentRequest();
        request.setBucketName(bucket);
        request.setKey(key);
        request.setExpression(query);
        request.setExpressionType(ExpressionType.SQL);

        InputSerialization inputSerialization = new InputSerialization();
        inputSerialization.setParquet(new ParquetInput());
        inputSerialization.setCompressionType(CompressionType.NONE);
        request.setInputSerialization(inputSerialization);

        OutputSerialization outputSerialization = new OutputSerialization();
        outputSerialization.setCsv(new CSVOutput());
        request.setOutputSerialization(outputSerialization);

        return request;

java - s3 select：如何获取镶木地板文件的列名？

0 回答 0

Related

Reference