问题标签 [distcp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3429 浏览

hadoop - Hadoop distcp 异常

我们正在使用 dictcp 将数据从 CDH4 复制到 CDH5。当我们在 CDH5 目标名称节点上运行命令时,我们得到以下异常。如果您已经遇到问题并知道解决方案,请告诉我。谢谢。

0 投票
1 回答
3298 浏览

hadoop - 使用 distcp 将数据从 HDFS 安全地传输到 amazon S3

我们希望将 Cloudera Hadoop 集群中的 HDFS 数据备份到 Amazon S3。看起来我们可以为此使用 distcp,但不清楚的是数据是否通过加密传输复制到 S3。

是否需要配置某些东西才能启用此功能?

0 投票
1 回答
1281 浏览

hadoop - distcp 和 s3distcp 之间的临时存储使用情况

我阅读了亚马逊 S3DistCp的文档- 它说,

“在复制操作期间,S3DistCp 在集群上暂存一份输出到 HDFS 中的临时副本。HDFS 中必须有足够的空闲空间来暂存数据,否则复制操作会失败。另外,如果 S3DistCp 失败,它不会清理HDFS 临时目录,因此您必须手动清除临时文件。例如,如果您将 500 GB 数据从 HDFS 复制到 S3,S3DistCp 会将整个 500 GB 复制到 HDFS 的临时目录中,然后将数据从临时目录”。

这并非无关紧要,尤其是在您拥有大型 HDFS 集群的情况下。有谁知道常规 Hadoop DistCp 是否具有将文件暂存到临时文件夹中的相同行为?

0 投票
1 回答
545 浏览

hadoop - 为什么匿名 FTP 到 HDFS DistCp 不起作用?

我尝试使用以下命令将 FTP 数据复制到 HDFS,

这是我收到的错误

0 投票
2 回答
803 浏览

hadoop - hadoop distcp 不工作,MR 工作处于接受状态

我正在尝试将数据从 CDH4 复制到 CDH5 集群。当我从 CDH5 提交 distcp 作业时,MR 作业进入接受状态并停留在那里(我已经尝试过多次,它在那里停留了超过 15 小时)。我要复制的数据小于 10MB。

以下是我正在使用的设置和步骤。

来源:CDH4,例如 NodeName = cloudera4 目的地:CDH5,例如 NodeName = Cloudera1

CDH5 上使用的命令:hadoop distcp hftp://Cloudera4:50070/ hdfs://Cloudera1/

下面是控制台输出:

此 MR 作业将永远处于 Accepted 状态。

从现在开始,我一直坚持这一点。我真的很感谢你的帮助。

0 投票
1 回答
1025 浏览

hadoop - 如何正确执行 hadoop distcp -f 命令?

我想在我的 hadoop 集群上备份一些文件夹和文件。我运行了这个命令:

我的 srclist 文件:

folder1包含两个文件:part-00000 and part-00001

folder2包含两个文件:file and file_old

该命令有效,但会分解所有文件夹内容。

结果 :

但我想得到结果:

我不能使用 hdfs://cluster1:8020/user/user1/* 因为 user1 包含许多文件夹和文件。

我怎么解决这个问题 ?

0 投票
2 回答
2251 浏览

hadoop - distcp - 访问 HDFS 文件的执行权限错误

我正在两个不同的集群之间执行 distcp。我是有选择地这样做的,所以它以每个文件为基础。两个集群中的权限相同。执行 distcp 的用户是相同的(在示例中命名为 xxx)。我在复制时遇到了一个问题,它要求执行权限......对于一个文件!

其中 xxx 是我的用户。

目标集群中的文件设置了 rw-r--r-- 权限,文件夹设置了 rwxr-xr-x。源集群中的文件设置了 rw-r--r-- 权限,文件夹设置了 rwxrwxrwx。

所以,确实,该文件没有设置执行权限。

但是,为什么 distcp 要求对文件执行权限?据说,在 HDFS 中,文件的执行权限无效。 Distcp 文档没有说明需要执行权限。

注意:我在我的 distcp 中使用 -overwrite 选项 - 没有别的。将 CDH4.2.1 与 distcp 版本 1 一起使用。

0 投票
1 回答
377 浏览

hadoop - 如何确定对 distcp2 的调用是否成功?

我可以在网上找到的最好建议是,您应该在传输后比较文件或使用 -update 进行第二次运行,第二次被认为不可靠。

有没有办法确定调用是否无异常返回?

0 投票
0 回答
255 浏览

spring - spring distcp 创建目标文件夹作为文件名

我正在使用 springDistCp在 hdfs 中复制文件。我的代码看起来像这样

在这种情况下,例如我想将test.txt文件从一个publish文件夹复制到另一个文件publish2夹。无论 publish2 文件夹是否存在,最终发生的是 distcp 创建一个名为的文件夹publish2/test.txt,然后在该文件夹中复制该test.txt文件。所以它最终成为publish2/test.txt/test.txt

如果我直接使用 hadoop distcp,我看不到这个问题。知道为什么会这样。

0 投票
1 回答
505 浏览

hadoop - 带分区的 Hadoop distcp

我正在尝试使用相同的配置(比如 A 到 B)从一个系统到另一个系统进行 distcp。但是我在 A 中创建的分区在从 A 到 B 的 distcp 之后没有出现在 B 中。我必须在 B 中手动创建分区。

我已经完成了设置动态分区参数,但它只是添加了分区,这是另一回事。请让我知道无论如何都可以解决这个问题。