1

我正在尝试 rhipe 和 RHadoop [rmr rhdfs rhbase etc.] 系列软件包。

现在在两个包 [rhipe 和 rmr] 中,我可以摄取/读取存储到 csv 或文本文件中的数据。它们都支持创建新的文件格式,但我发现 rmr 对它有更多的支持,或者至少有更多的资源可以开始。好吧,当一个人计划对存储在 HDFS 中的原始数据执行少量数据处理并最终希望以 Hadoop 的其他组件(如 Hive Impala 等)可识别的格式将其存储回 HDFS 时,此要求将很有用。这两个包都可以编写只能由包识别的原始格式。包 rmr 支持很少的其他格式。

有关 rmr 的参考,请查看:https ://github.com/RevolutionAnalytics/rmr2/blob/master/docs/getting-data-in-and-out.md

然而,对于成熟我没有得到任何这样的文件,我尝试了各种失败的方法。

rhwatch所以我的问题是,在读取存储在 HDFS 中并在 rhipe 中运行的文件后,我如何才能写回文本 [例如,其他可识别的格式也可以工作] ?

4

0 回答 0