我有两个 RxXdfData 数据源,我想将它们合并到 RxHadoopMR 计算上下文中的某个列上。
我的两个 xdf 数据源都很大并且存在于 hdfs 上。我们如何合并它们?
我尝试了 RxDataStep 附加选项,但革命 r 抱怨,它不能采用复合 xdf 文件并建议我改用 rxExec。
我知道这可以在本地计算上下文中使用 rxMerge 函数来完成,但是我必须执行以下步骤:
- 将数据复制到边缘节点(本地上下文)
- 制作 .xdf 文件
- 使用 rxMerge 合并 .xdf 文件
- 将输出 .xdf 文件转换为 txt/csv 格式
- 将 txt/csv 文件传输到 hdfs
- 再次使用 rxImport 将这些文本文件转换回复合 xdf 文件
我想这么长的简单合并过程有点过头了。
请帮助我解决此问题的任何最佳解决方案。
编辑:我也在revolution r支持论坛@ https://revolutionanalytics.zendesk.com/entries/53777899-Merging-two-composite-xdf-files-上问过同样的问题
但是到现在我还没有收到任何回复。