问题标签 [distcp]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

173 问题

0 投票

1 回答

1053 浏览

scala - 当我们传递单个文件时，hadoop distcp 不会创建文件夹

我在 hadoop Distcp 中面临以下问题，非常感谢任何建议或帮助。

我正在尝试将数据从 Google Cloud 平台复制到 Amazon S3

1）当我们有多个文件要从源复制到目标时（这工作正常）

2）当我们只有一个文件要从源复制到目标时（问题）

代码：

2017-08-18T08:27:05.927

0 投票

1 回答

1688 浏览

hadoop - 复制单个文件时出现hadoop discp问题

（注意：我需要使用 distcp 来获得并行性）

我在 /user/bhavesh 文件夹中有 2 个文件

我在 /user/bhavesh1 文件夹中有 1 个文件

将 2 个文件从 /user/bhavesh 复制到 /user/uday 文件夹（这工作正常）

这将创建 /user/uday 文件夹

如果创建文件而不是文件夹，则将 1 个文件从 /user/bhavesh1 复制到 /user/uday1 文件夹

我需要的是，如果有一个文件/user/bhavesh1/emp1.csv我需要它应该创建/user/uday1/emp1.csv [uday1 应该形成目录] 任何建议或帮助都非常感谢。

hadoop distcp

2017-08-18T11:18:11.143

0 投票

0 回答

1713 浏览

java - java.io.IOException：提交 DistCp 作业时将请求正文写入服务器时出错

当我提交 distcp 作业以将文件从不安全的 hadoop 集群复制到安全（kerberized）集群时，我遇到了以下错误：

由于Error writing request body to server消息太宽泛，我不知道要挖掘什么。这里有什么提示吗？

仅供参考，我在安全集群上测试了 mapreduce pi 示例，它工作正常。

java hadoop distcp

2017-08-28T09:07:13.717

0 投票

2 回答

910 浏览

hadoop - java.lang.IllegalArgumentException：源文件列表和源路径都存在

我正在尝试distcp通过执行以下命令将文件从 HDFS 复制到 S3

但我收到以下错误：

hadoop hdfs distcp s3distcp

2017-09-05T09:15:08.687

0 投票

1 回答

1030 浏览

hadoop - 从 HDFS 复制到 S3 时使用 GroupBy 合并文件夹中的文件

我在 HDFS 中有以下文件夹：

每个文件夹中有近 50 个文件。我的目的是合并文件夹中的所有文件以获取单个文件，同时将其从 HDFS 复制到 S3 上。我遇到的问题是带有groupBy 选项的正则表达式。我试过这个，这似乎不起作用：

该命令本身有效，但我没有将每个文件夹中的文件合并到一个文件中，这让我相信问题出在我的正则表达式上。

hadoop amazon-s3 amazon-emr distcp s3distcp

2017-10-19T15:20:41.937

0 投票

4 回答

2113 浏览

apache - 将数据从一个集群复制到另一个集群时，Hadoop Distcp 中止

我正在尝试将分区 Hive 表的数据从一个集群复制到另一个集群。我正在使用 distcp 复制数据，但底层数据的数据是分区配置单元表的。我使用了以下命令。

但是随着表被分区，目录结构是根据分区表创建的。所以它显示错误创建重复和中止作业。

org.apache.hadoop.toolsCopyListing$DulicateFileException: 文件会导致重复。中止

我也用过-skipcrccheck -update -overwrite，但没有奏效。

如何将表的数据从分区文件路径复制到目标？

apache hadoop hive bigdata distcp

2017-11-05T02:28:58.530

0 投票

3 回答

6840 浏览

hadoop - Hadoop distcp 未提供 AWS 凭证

我有一大堆 S3files 想放在 HDFS 上。鉴于涉及的文件数量，我首选的解决方案是使用“分布式副本”。但是由于某种原因，我无法让 hadoop distcp 获取我的 Amazon S3 凭证。我使用的命令是：

但是，这与不存在“-D”参数的行为相同。

我查看了 hadoop distcp 文档，但找不到关于为什么这不起作用的解决方案。我试过 -Dfs.s3n.awsAccessKeyId 作为一个也不起作用的标志。我已经读过如何明确地传递凭据不是一个好习惯，所以也许这只是一些以其他方式做的 gentil 建议？

应该如何使用 distcp 传递 S3 凭据？有谁知道？

hadoop amazon-s3 distcp s3distcp

2017-11-23T13:16:57.117

0 投票

2 回答

1248 浏览

hadoop - 使用 s3 dist cp 将数据从非 emr 集群复制到 s3 的权限问题

陈述我的问题
1）我想将我们的 cdh hadoop 集群备份到 s3
2）我们有一个正在运行的 emr 集群
3）我正在尝试从 emr 集群运行 s3distcp，将 src 作为 cdh 远程集群的 hdfs URL，将目标作为 s3 。

出现以下错误：原因：org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException)：权限被拒绝：user=mapred, access=RE AD_EXECUTE, inode="/tmp/hadoop-mapred/映射/分期“

以下是我在这里浏览文档后的问题

http://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html

1）这可行吗？我可以从 s3distcp 文档中看到可以给出任何 hdfs url。但我找不到任何关于它在外部集群情况下如何工作的文档。

2）我想知道在文档中提到的暂存目录（有人提到s3distcp在复制到s3之前将数据复制到这个目录）是在哪里创建的，即在远程集群或emr集群中。

hadoop amazon-s3 amazon-emr distcp s3distcp

2017-12-28T11:44:02.873

0 投票

2 回答

302 浏览

azure - 使用 distcp 时，本地是否支持 wasb 协议？

我想将我的工作负载从本地迁移到 azure blob。我可以使用 distcp 将工作负载转移到 azure 吗？因为它是 blob，所以我将在我的目标参数中使用 wasb。在这种情况下，wasb 会起作用吗？

azure hadoop hdfs azure-blob-storage distcp

2018-02-08T04:33:50.350

0 投票

0 回答

109 浏览

hadoop - 有什么方法可以使用 Distcp 在两个集群之间复制数据，这些数据不能通过第三台机器直接访问？

我们需要将完整的数据从本地 hadoop 集群移动到另一个存储在云中的集群。我想知道是否有任何方法可以使用 DistCP / 它的替代方案通过本地机器将批量数据移动到云存储，并连接到两者？

PS：云组件 - HDInsight 和 BLOB 存储

提前致谢。

hadoop hadoop2 distcp

2018-02-22T16:15:25.273

1 2 3 4 5 6 7 8 9 10

问题标签 [distcp]

Reference