有没有办法使用 python 使用 hadoop-streaming 将文本数据写入镶木地板文件。
基本上,我的 IdentityMapper 发出了一个字符串,我想将其存储为镶木地板文件。
输入或示例将非常有帮助
有没有办法使用 python 使用 hadoop-streaming 将文本数据写入镶木地板文件。
基本上,我的 IdentityMapper 发出了一个字符串,我想将其存储为镶木地板文件。
输入或示例将非常有帮助
我怀疑没有使用内置 Hadoop Streaming 的内置方法(我找不到),但是,根据您的数据集,您可以使用 3rd 方包作为
https://github.com/whale2/iow-hadoop-streaming
要从 JSON 生成 Parquet,您的流代码将输出 json 并与 AVRO 模式一起,您可以使用ParquetAsJsonOutputFormat
.
请注意,在这个阶段,上面的包有一些限制(比如只能使用原始类型等)。
根据您的数据的性质,您也可以使用 Kite SDK,如下所示:
https://dwbigdata.wordpress.com/2016/01/31/json-to-parquet-conversion/
和这里:
https://community.cloudera.com/t5/Kite-SDK-includes-Morphlines/JSON-to-Parquet/td-p/20630
干杯