hadoop - 比较集群之间的海量数据

翻译自：https://stackoverflow.com/questions/51941058 2018-08-21T03:11:51.207

79 次

1

我们的团队正在将旧的 CDH 集群迁移到新的 CDH 集群。

我的任务是将存储在非 kerberized 集群（旧集群）中的数据与存储在 kerberized 集群（新集群）中的数据进行比较。

kerberized 集群正在处理 isilon。非 kerberized 集群在普通 linux 上运行。

两个集群都有相同的 python 程序来将文件放入集群中进行配置单元分析。

每个分区的文件大小分别约为 45GB。

现在，我想通过使用 md5 等方法比较它们来证明每个 python 程序放置的数据是相同的。

当然，相同的程序输出相同的结果。但是我们对乱码的担忧，一些不可预测的数据丢失或文件大小是相同的，但值是不同的。

有没有办法比较这么大的数据？

0 回答 0