0

我正在使用ParquetReader<Group> reader = new ParquetReader<Group>(path, groupReadSupport);从本地读取镶木地板文件。

我想知道如何通过网络逐行传输镶木地板文件

我想知道如何通过客户端套接字逐行传递该行数据,但我不想传递字符串格式我想在服务器套接字中以镶木地板格式传递,我想从服务器套接字中处理它并打印它字符串格式

4

1 回答 1

0

ParquetReader在内部使用InputFile抽象来从不同的来源读取。默认实现是HadoopInputFile,它使用 hadoop 支持的文件系统实现之一。您可以尝试实现自己的InputFile从中创建阅读器,但我认为这对于纯粹的流输入是不可能的。

Parquet 文件包含有关所包含列、它们的类型和统计信息的元数据,这是处理数据所必需的。此元数据包含在文件的末尾,这使得以流方式写入文件成为可能。但是读取需要有可能寻找到文件的末尾,读取这个元数据的长度,然后寻找到元数据的开头来读取它,最后寻找到实际列数据的开头。

于 2019-11-21T11:25:44.697 回答