我在 Amazon EC2 上运行 hdfs
比如说,我有一个存储一些数据的 ftp 服务器。
我只想以并行方式将这些数据直接复制到hdfs(这可能更有效)。
我认为 hadoop distcp 是我需要的。
但
$ bin/hadoop distcp ftp://username:passwd@hostname/some/path/ hdfs://namenode/some/path
不起作用。
13/07/05 16:13:46 INFO tools.DistCp: srcPaths=[ftp://username:passwd@hostname/some/path/]
13/07/05 16:13:46 INFO tools.DistCp: destPath=hdfs://namenode/some/path
Copy failed: org.apache.hadoop.mapred.InvalidInputException: Input source ftp://username:passwd@hostname/some/path/ does not exist.
at org.apache.hadoop.tools.DistCp.checkSrcPath(DistCp.java:641)
at org.apache.hadoop.tools.DistCp.copy(DistCp.java:656)
at org.apache.hadoop.tools.DistCp.run(DistCp.java:881)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:79)
at org.apache.hadoop.tools.DistCp.main(DistCp.java:908)
我通过复制Chrome中的ftp路径检查了路径,该文件确实存在,我什至可以下载它。
然后,我尝试通过以下方式列出路径下的文件:
$ bin/hadoop dfs -ls ftp://username:passwd@hostname/some/path/
它以:
ls: Cannot access ftp://username:passwd@hostname/some/path/: No such file or directory.
这似乎是相同的铅。
这里有什么解决方法吗?
先感谢您。
浩。