问题标签 [distcp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1119 浏览

hadoop - hadoop distcp 故障转移 hftp 协议

我想通过 hftp 协议使用 distcp 从 cdh3 和 cdh4 复制文件。命令如下: hadoop distcp hftp://cluster1:50070/folder1 hdfs://cluster2/folder2

但是由于http connection errorjobtracker UI中的一些原因,工作失败了

folder1 中的大多数文件将被复制到 folder2,但某些文件由于上述异常而失败。任何人都和我有同样的问题,以及如何解决这个问题?提前致谢。

0 投票
1 回答
1128 浏览

hadoop - Hadoop DistCp 通过重命名处理相同的文件名

有什么方法可以运行 DistCp,但可以选择在文件名冲突时重命名?也许用一个例子来解释是最容易的。

假设我正在复制到 hdfs:///foo 到 hdfs:///bar,而 foo 包含这些文件:

和 bar 包含这些:

然后在复制之后,我希望 bar 包含以下内容:

如果没有这样的选择,那么最可靠/最有效的方法是什么?我自己开发的 distcp 版本当然可以完成,但这似乎工作量很大,而且很容易出错。基本上,我根本不关心文件名,只关心它们的目录,我想定期将大量数据复制到“合并”目录中。

0 投票
1 回答
12532 浏览

hadoop - HDFS LeaseExpiredException

我有一个应用程序,它应该将大量文件从 S3 等源复制到 HDFS 中。该应用程序在内部使用 apache distcp,并通过流将每个单独的文件从源复制到 HDFS。

每个单独的文件大约为 1GB,有 1K 列的字符串。当我选择复制所有列时,写入失败并出现以下错误:-

我相信这是由于将一个大文件从源代码写入 HDFS 花费了太多时间。当我修改应用程序以仅复制 50,100 或 200 列时,应用程序运行完成。当每行复制的列数 > 200 时,应用程序失败。

我无法控制源文件。

我似乎找不到任何关于增加租约到期的信息。

任何指针?

0 投票
1 回答
657 浏览

hadoop - 用于 distcp 时间的 Linux 命令

我正在尝试通过 distcp 使用集群内分布式复制-

/homeappl/home/user/hadoop-2.2.0/bin/hadoop distcp file:///wrk/user/random.file file:///wrk/user/output18

是否有任何命令可以确定分布式复制需要多长时间?

0 投票
1 回答
239 浏览

hadoop - 如果我们使用 DistCp 命令,块大小如何从 Cluster1 到 Cluster2 变化?

我正在处理“DistCp”命令以将几个关键文件从 My Cluster1 移动到 Cluster2。这些关键文件以前驻留在 Blocksize 64MB 中。现在移到 Cluster2 [它有 128MB 块大小)。

在 DistCp 移动之后,关键文件的性能将如何随着 Cluster2 中的新块大小而增加..性能增加或减少..???

0 投票
0 回答
285 浏览

hadoop - distcp s3 实例配置文件临时凭证

我在 AWS 的 hadoop 集群上使用 distcp。现在我们正在切换以将 IAM 角色用于集群节点。我要尝试的一个解决方案是添加我自己的 org.apache.hadoop.fs.s3native.NativeS3FileSystem 实现,它会像 AWS InstanceProfileCredentialsProvider 一样更智能并使用 IMDS。但是,是否有可用的解决方案使 distcp 与临时安全凭证一起工作?查看 NativeS3FileSystem 和相关类,看起来我需要复制大部分代码才能使凭据查找使用 IMDS。

0 投票
1 回答
187 浏览

hadoop - Import data from inter cluster hadoop with different versions using command line

Can you tell me the exact command to import data from hdfs with two different haddop version one with hadoop 2.0.4 alpha and other 2.4.0 version? How can I use distcp command in this case?

0 投票
1 回答
1246 浏览

hadoop - 如何使用 s3DistCp 从子目录复制

尝试使用s3DistCps3://my-bucket/dir1/, s3://my-bucket/dir2,复制s3://my-bucket/dir3

并且所有三个 DIR 中都有一些文件。想做类似的事情:

但它会产生一个错误说:

's3://my-bucket/*/' 目录未找到...

那么这是否意味着s3DistCp在路径中不使用通配符?有什么解决方法或任何想法吗?

0 投票
0 回答
1023 浏览

hadoop - Copying data between 2 different hadoop clusters

I am trying to copy data from one HDFS directory to another using distcp:

Source hadoop version: hadoop version Hadoop 2.0.0-cdh4.3.1

Destination hadoop version: hadoop version Hadoop 2.0.0-cdh4.4.0

Command I am using is:

Error message I am getting is:

==

Logs from "Task Logs":

=

Any help?

Thanks,

Rio

0 投票
0 回答
1155 浏览

hadoop - hadoop distcp 带宽问题

我正在使用以下命令从一个 hadoop 集群(版本 0.20.2)到另一个 hadoop 集群(版本 2.2.0)进行 distcp。

所以带宽利用率应该是源到目的地。但与源到目的地相比,从目的地到源的网络利用率更多。

hadoop distcp -bandwidth 指定:

那么它会阻止什么。?