我s3 select
用来读取存储在 S3 存储桶中的大型镶木地板文件的前 10 行。我能够获得csv
格式的前 10 行,但它没有任何标题。它只包含没有任何列名的行。
有什么方法可以像我们一样获取这个 parquet 文件的标题或 CSV 文件?在 CSV 文件中,我们可以设置FileHeaderInfo
参数IGNORE
来获取标题。无论如何也对镶木地板文件做同样的事情吗?
如果没有,有没有其他方法可以读取这个 parquet 文件的前 10 行,以便我可以获取 parquet 数据的标题?
我正在阅读使用InputSerialization
文档中描述的以下逻辑的 S3 选择:
SelectObjectContentRequest request = new SelectObjectContentRequest();
request.setBucketName(bucket);
request.setKey(key);
request.setExpression(query);
request.setExpressionType(ExpressionType.SQL);
InputSerialization inputSerialization = new InputSerialization();
inputSerialization.setParquet(new ParquetInput());
inputSerialization.setCompressionType(CompressionType.NONE);
request.setInputSerialization(inputSerialization);
OutputSerialization outputSerialization = new OutputSerialization();
outputSerialization.setCsv(new CSVOutput());
request.setOutputSerialization(outputSerialization);
return request;