2

有没有办法使用 python 使用 hadoop-streaming 将文本数据写入镶木地板文件。

基本上,我的 IdentityMapper 发出了一个字符串,我想将其存储为镶木地板文件。

输入或示例将非常有帮助

4

1 回答 1

1

我怀疑没有使用内置 Hadoop Streaming 的内置方法(我找不到),但是,根据您的数据集,您可以使用 3rd 方包作为

https://github.com/whale2/iow-hadoop-streaming

要从 JSON 生成 Parquet,您的流代码将输出 json 并与 AVRO 模式一起,您可以使用ParquetAsJsonOutputFormat.

请注意,在这个阶段,上面的包有一些限制(比如只能使用原始类型等)。

根据您的数据的性质,您也可以使用 Kite SDK,如下所示:

https://dwbigdata.wordpress.com/2016/01/31/json-to-parquet-conversion/

和这里:

https://community.cloudera.com/t5/Kite-SDK-includes-Morphlines/JSON-to-Parquet/td-p/20630

干杯

于 2016-06-09T03:22:39.000 回答