我有 FTP 服务器(F [ftp])、linux box(S [standalone])和 hadoop 集群(C [cluster])。当前文件流为 F->S->C。我试图通过跳过 S 来提高性能。
目前的流量是:
wget ftp://user:password@ftpserver/absolute_path_to_file
hadoop fs -copyFromLocal path_to_file path_in_hdfs
我试过了:
hadoop fs -cp ftp://user:password@ftpserver/absolute_path_to_file path_in_hdfs
和:
hadoop distcp ftp://user:password@ftpserver/absolute_path_to_file path_in_hdfs
两个都挂了。作为作业的 distcp 被超时杀死。日志(hadoop job -logs)只说它被超时杀死了。我试图从 C 的某个节点的 ftp 中获取 wget 并且它有效。可能是什么原因以及如何解决的任何提示?