问题标签 [distcp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1053 浏览

scala - 当我们传递单个文件时,hadoop distcp 不会创建文件夹

我在 hadoop Distcp 中面临以下问题,非常感谢任何建议或帮助。

我正在尝试将数据从 Google Cloud 平台复制到 Amazon S3

1)当我们有多个文件要从源复制到目标时(这工作正常)

2)当我们只有一个文件要从源复制到目标时(问题)

代码:

0 投票
1 回答
1688 浏览

hadoop - 复制单个文件时出现hadoop discp问题

(注意:我需要使用 distcp 来获得并行性)

我在 /user/bhavesh 文件夹中有 2 个文件

在此处输入图像描述

我在 /user/bhavesh1 文件夹中有 1 个文件

在此处输入图像描述

将 2 个文件从 /user/bhavesh 复制到 /user/uday 文件夹(这工作正常)

在此处输入图像描述

在此处输入图像描述

这将创建 /user/uday 文件夹

如果创建文件而不是文件夹,则将 1 个文件从 /user/bhavesh1 复制到 /user/uday1 文件夹

在此处输入图像描述

在此处输入图像描述

我需要的是,如果有一个文件/user/bhavesh1/emp1.csv我需要它应该创建/user/uday1/emp1.csv [uday1 应该形成目录] 任何建议或帮助都非常感谢。

0 投票
0 回答
1713 浏览

java - java.io.IOException:提交 DistCp 作业时将请求正文写入服务器时出错

当我提交 distcp 作业以将文件从不安全的 hadoop 集群复制到安全(kerberized)集群时,我遇到了以下错误:

由于Error writing request body to server消息太宽泛,我不知道要挖掘什么。这里有什么提示吗?

仅供参考,我在安全集群上测试了 mapreduce pi 示例,它工作正常。

0 投票
2 回答
910 浏览

hadoop - java.lang.IllegalArgumentException:源文件列表和源路径都存在

我正在尝试distcp通过执行以下命令将文件从 HDFS 复制到 S3

但我收到以下错误:

0 投票
1 回答
1030 浏览

hadoop - 从 HDFS 复制到 S3 时使用 GroupBy 合并文件夹中的文件

我在 HDFS 中有以下文件夹:

每个文件夹中有近 50 个文件。我的目的是合并文件夹中的所有文件以获取单个文件,同时将其从 HDFS 复制到 S3 上。我遇到的问题是带有groupBy 选项的正则表达式。我试过这个,这似乎不起作用:

该命令本身有效,但我没有将每个文件夹中的文件合并到一个文件中,这让我相信问题出在我的正则表达式上。

0 投票
4 回答
2113 浏览

apache - 将数据从一个集群复制到另一个集群时,Hadoop Distcp 中止

我正在尝试将分区 Hive 表的数据从一个集群复制到另一个集群。我正在使用 distcp 复制数据,但底层数据的数据是分区配置单元表的。我使用了以下命令。

但是随着表被分区,目录结构是根据分区表创建的。所以它显示错误创建重复和中止作业。

org.apache.hadoop.toolsCopyListing$DulicateFileException: 文件会导致重复。中止

我也用过-skipcrccheck -update -overwrite,但没有奏效。

如何将表的数据从分区文件路径复制到目标?

0 投票
3 回答
6840 浏览

hadoop - Hadoop distcp 未提供 AWS 凭证

我有一大堆 S3files 想放在 HDFS 上。鉴于涉及的文件数量,我首选的解决方案是使用“分布式副本”。但是由于某种原因,我无法让 hadoop distcp 获取我的 Amazon S3 凭证。我使用的命令是:

但是,这与不存在“-D”参数的行为相同。

我查看了 hadoop distcp 文档,但找不到关于为什么这不起作用的解决方案。我试过 -Dfs.s3n.awsAccessKeyId 作为一个也不起作用的标志。我已经读过如何明确地传递凭据不是一个好习惯,所以也许这只是一些以其他方式做的 gentil 建议?

应该如何使用 distcp 传递 S3 凭据?有谁知道?

0 投票
2 回答
1248 浏览

hadoop - 使用 s3 dist cp 将数据从非 emr 集群复制到 s3 的权限问题

陈述我的问题
1)我想将我们的 cdh hadoop 集群备份到 s3
2)我们有一个正在运行的 emr 集群
3)我正在尝试从 emr 集群运行 s3distcp,将 src 作为 cdh 远程集群的 hdfs URL,将目标作为 s3 。

出现以下错误:原因:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):权限被拒绝:user=mapred, access=RE AD_EXECUTE, inode="/tmp/hadoop-mapred/映射/分期“

以下是我在这里浏览文档后的问题

http://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html

1)这可行吗?我可以从 s3distcp 文档中看到可以给出任何 hdfs url。但我找不到任何关于它在外部集群情况下如何工作的文档。

2)我想知道在文档中提到的暂存目录(有人提到s3distcp在复制到s3之前将数据复制到这个目录)是在哪里创建的,即在远程集群或emr集群中。

0 投票
2 回答
302 浏览

azure - 使用 distcp 时,本地是否支持 wasb 协议?

我想将我的工作负载从本地迁移到 azure blob。我可以使用 distcp 将工作负载转移到 azure 吗?因为它是 blob,所以我将在我的目标参数中使用 wasb。在这种情况下,wasb 会起作用吗?

0 投票
0 回答
109 浏览

hadoop - 有什么方法可以使用 Distcp 在两个集群之间复制数据,这些数据不能通过第三台机器直接访问?

我们需要将完整的数据从本地 hadoop 集群移动到另一个存储在云中的集群。我想知道是否有任何方法可以使用 DistCP / 它的替代方案通过本地机器将批量数据移动到云存储,并连接到两者?

PS:云组件 - HDInsight 和 BLOB 存储

提前致谢。