我想运行增量夜间作业,将 100 GB 的数据从 Oracle DataWarehouse 提取到 HDFS 中。处理后,需要将结果(几 GB)导出回 Oracle。
我们在 Amazon AWS 中运行 Hadoop,我们的数据仓库在本地。AWS 和本地之间的数据链路为 100 mbps,并且不可靠。
如果我使用 Sqoop-import 从 Oracle 导入数据,并且网络遇到间歇性中断,Sqoop 是如何处理的?另外,如果我导入(或导出)了 70% 的数据,而在剩余的 30% 期间,网络出现故障,会发生什么情况?
由于默认情况下 Sqoop 使用 JDBC,数据传输如何在网络级别发生?我们可以压缩传输中的数据吗?