我遇到的大多数情况是数据被迁移进/出 HDFS。而且我对 Hadoop 完全陌生!
但我的要求是在一个符合 JCR 的平面文件存储库中从各种来源移动大型二进制文件。我的问题是
1) Hadoop 是从 X 读取和写入 Y(两个非 HDFS 系统)场景的好选择吗?
2) 任何其他自定义框架或类似 Spring Batch 的东西都可以达到同样的目的吗?这意味着它只是IO和网络的问题?
我遇到的大多数情况是数据被迁移进/出 HDFS。而且我对 Hadoop 完全陌生!
但我的要求是在一个符合 JCR 的平面文件存储库中从各种来源移动大型二进制文件。我的问题是
1) Hadoop 是从 X 读取和写入 Y(两个非 HDFS 系统)场景的好选择吗?
2) 任何其他自定义框架或类似 Spring Batch 的东西都可以达到同样的目的吗?这意味着它只是IO和网络的问题?
是的,您可以使用 hadoop,如果您的 X 和 Y 可以处理多个连接,并且如果您并行检索和存储数据将提供更好的性能。
有一个叫做sqoop的框架可以更好地满足你的需求。