我们的团队正在将旧的 CDH 集群迁移到新的 CDH 集群。
我的任务是将存储在非 kerberized 集群(旧集群)中的数据与存储在 kerberized 集群(新集群)中的数据进行比较。
kerberized 集群正在处理 isilon。非 kerberized 集群在普通 linux 上运行。
两个集群都有相同的 python 程序来将文件放入集群中进行配置单元分析。
每个分区的文件大小分别约为 45GB。
现在,我想通过使用 md5 等方法比较它们来证明每个 python 程序放置的数据是相同的。
当然,相同的程序输出相同的结果。但是我们对乱码的担忧,一些不可预测的数据丢失或文件大小是相同的,但值是不同的。
有没有办法比较这么大的数据?