问题标签 [distcp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1643 浏览

hadoop - distcp hdfs 到 s3 失败

我试图做一个目录,其中包含数百个扩展名为 .avro 的小文件

但对于某些文件失败并出现以下错误:

这里有更多来自 JobTracker UI 的片段:

有人知道这个问题吗?

0 投票
2 回答
2615 浏览

hadoop - 将文件从 FTP 复制到 HDFS 失败

我有 FTP 服务器(F [ftp])、linux box(S [standalone])和 hadoop 集群(C [cluster])。当前文件流为 F->S->C。我试图通过跳过 S 来提高性能。

目前的流量是:

我试过了:

和:

两个都挂了。作为作业的 distcp 被超时杀死。日志(hadoop job -logs)只说它被超时杀死了。我试图从 C 的某个节点的 ftp 中获取 wget 并且它有效。可能是什么原因以及如何解决的任何提示?

0 投票
1 回答
1572 浏览

amazon-s3 - 无法在 oozie 中使用 shell-action 执行从 s3 到 hdfs 的 distcp

我正在尝试使用 distcp 将数据从 s3 复制到 hdfs。以下是我正在执行 distcp 的 shell 脚本。

以下是我的 job.properties 文件:

我的workflow.xml如下:

oozie 日志如下:

我想在oozie中使用shell-action而不是distcp-action来做distcp。

0 投票
2 回答
4191 浏览

hadoop - s3distcp 的多个源文件

有没有办法将文件列表从 S3 复制到 hdfs而不是使用 s3distcp 的完整文件夹?这是 srcPattern 无法工作的时候。

我在 s3 文件夹中有多个文件,它们都有不同的名称。我只想将特定文件复制到 hdfs 目录。我没有找到任何方法来指定 s3distcp 的多个源文件路径。

我目前使用的解决方法是告诉 srcPattern 中的所有文件名

当文件数量太多时,这个东西可以工作吗?大约10 000?

0 投票
1 回答
452 浏览

hadoop - Hadoop distcp 命令使用不同的 S3 目标

我正在使用已在其上设置 CDH5 HDFS 的 Eucalyptus 私有云。我想将我的 HDFS 备份到 Eucalyptus S3。此处建议使用 distcp 的经典方法:http ://wiki.apache.org/hadoop/AmazonS3 ,即hadoop distp hdfs://namenode:9000/user/foo/data/fil1 s3://$AWS_ACCESS_KEY:$AWS_SECRET_KEY@bucket/key不起作用。

似乎 hadoop 已在 Amazon 上预先配置了 S3 位置,我找不到此配置在哪里,以便将其更改为我在 Eucalyptus 上运行的 S3 服务的 IP 地址。我希望能够以与使用 hdfs:// 前缀时更改 NameNode uri 相同的方式更改 S3 的 uri。但似乎这是不可能的......有什么见解吗?

我已经找到了传输数据的解决方法。特别是这里的 s3cmd 工具:https ://github.com/eucalyptus/eucalyptus/wiki/HowTo-use-s3cmd-with-Eucalyptus和这里的 s3curl 脚本:aws.amazon.com/developertools/Amazon-S3/2880343845151917 工作很好,但如果我可以使用 map-reduce 和 distcp 命令传输我的数据,我会更喜欢。

0 投票
0 回答
202 浏览

hadoop - 有没有办法通过 webhdfs 在 hadoop 中提取整个目录?

我们有两个集群,我们的要求是将数据从一个集群拉到另一个集群。

我们唯一可用的选择是,通过 webhdfs 提取数据!!

但不幸的是,我们可以看到,通过 webhdfs,我们一次只能拉取一个文件,这也需要为每个文件执行两个命令。

我的直接问题是:有没有办法通过 webhdfs,我们可以提取整个目录数据?

有人可以帮我解决这个...

注意:由于安全原因,DISTCP 对我们来说不是一个可行的选择!!

0 投票
1 回答
674 浏览

hadoop - 如何从 hdfs 到 s3 运行加密的 distcp?

我喜欢将数据从我们的 hadoop 集群(本地)复制到 s3。我可以做到不加密。我还可以运行带有客户端加密的 s3cmd put。如何使用客户端加密进行 distcp?

0 投票
1 回答
981 浏览

hadoop - 将数据从网关节点复制到同一网络中的不同集群

有没有办法在同一网络中将数据从集群 1 中的网关节点直接复制到集群 2 的 HDFS。目前我正在对集群 2 的网关节点执行 scp 并将数据上传到 HDFS。

谢谢,

0 投票
1 回答
750 浏览

hadoop - 带有 MR1 的 CDH5.2 中的 distcp2

当 distcp 从 s3 到本地集群时,我们需要限制映射器的带宽。

所以我从https://repository.cloudera.com下载了 hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar

这是链接:https ://repository.cloudera.com/artifactory/public/org/apache/hadoop/hadoop-distcp/2.5.0-cdh5.2.0-SNAPSHOT/hadoop-distcp-2.5.0-cdh5.2.0 -20141009.063640-188.jar

然后按照 distcp 命令运行,但出现了一些错误。不知道我做错了什么g

任何帮助

0 投票
1 回答
483 浏览

hadoop - 使用 Distcp 在 Hadoop 中提取数据

我知道 distcp 用于集群间/集群内的数据传输。是否可以使用 distcp 将数据从本地文件系统摄取到 HDFS。我知道您可以使用 file:///.... 指向 HDFS 之外的本地文件,但与集群间/集群内传输相比,它的可靠性和速度有多快。