问题标签 [distcp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
453 浏览

java - 在java中为distcp映射Reduce作业

我正在尝试每天将数据从一个集群复制到另一个集群。搜索了很多,但每个人都建议用 args 调用 DistCp 的 main 函数。我正在为此编写Java代码。但它不起作用,我也没有任何错误。命令行上的 distcp 工作正常。这里需要做什么?

0 投票
1 回答
707 浏览

hadoop - 更改 distcp 中的目标文件名/位置

我在 hdfs 的一个文件夹中有许多文件,它们的名称在 hdfs 中的格式为 filename.yyyy-mm-dd-hh.machinename.gz。我需要将这些转移到 s3 但我想将它们放在 yyyy/mm/dd/hh/filename.yyyy-mm-dd-hh.machinename.gz (这将是对象名称,因为 s3 具有平面结构)下我指定的存储桶。distcp 命令可以将文件从 hdfs 传输到 s3,但是否有执行上述操作的选项?如果不是,我该如何扩展 distcp 来执行此操作?

0 投票
1 回答
1408 浏览

hadoop - 从一个集群传输到另一个集群时,hadoop 中的 distcp 是否加密数据

我想知道 distcp 在从一个集群传输到另一个集群时是否可以选择加密数据。我知道它确实支持 S3 集群中的加密,但这与亚马逊的 S3 有关。如果我们将纯文本文件从一个集群移动到另一个集群怎么办。它会被加密还是发送纯文本?如果支持,我们可以启用这种加密吗?

0 投票
2 回答
172 浏览

hadoop - 如何做从cloudera到hortonwork的distcp

我正在尝试从 cloudera 到 hortonwork 的 distcp,但出现以下错误。我尝试使用 webhdfs 和 hftp,但没有运气。在此处输入图片描述 有人可以帮我解决这个问题吗

0 投票
0 回答
357 浏览

hadoop - Hadoop Namenode HA 的名称服务应该可以跨集群发现

要求:Hadoop Namenode HA 的名称服务应该可以跨集群发现。

解决方案#1:我在网上找到的一种解决方案是将名称服务配置添加到所涉及集群中的所有 hdfs-site.xml 文件中。

问题:我们有 10 个集群并且还在增长,我们无法在每次部署新集群时在所有集群中添加新的集群定义。

优点:可管理少数集群。缺点:无法扩展到更多集群。

解决方案#2:我们正计划开发第二个解决方案,使用中央服务来解析跨集群的名称服务,并使用自定义类扩展 org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider 类。

请提供有关任何更好的解决方案或已为此问题提交的任何现有补丁的任何输入。

0 投票
1 回答
449 浏览

hadoop - Hadoop集群中的关键文件分布

我想将大量文件从 HDFS 发送到 Google Storage (GS)。所以我想在这种情况下使用 distcp 命令。

我还需要在 core-site.xml 中指定 *.p12 密钥文件才能访问 GS。我需要将此文件分发到集群中的所有节点。

我不想手动操作。分发密钥文件的最佳做法是什么?

0 投票
4 回答
7852 浏览

hadoop - 从 Hadoop 到 S3 的 distcp 失败并显示“任何本地目录中都没有可用空间”

我正在尝试使用 distcp 将数据从本地 hadoop 集群复制到 S3 存储桶。

有时它“有效”,但一些映射器失败,堆栈跟踪如下。其他时候,太多的映射器失败了,整个工作都取消了。

错误“任何本地目录中都没有可用空间”。对我来说没有意义。边缘节点(运行 distcp 命令的地方)、集群和 S3 存储桶中有大量空间。

任何人都可以对此有所了解吗?

0 投票
1 回答
1253 浏览

hadoop - Oozie - 通过动作配置在 DistCp 上设置策略

我有一个带有 distCp 操作的工作流,它运行得相当好。但是,现在我正在尝试更改复制策略,并且无法通过操作参数来做到这一点。关于这个主题的文档相当少,查看 distCp 操作执行器的源代码并没有帮助。

如果从命令行运行 distCp,我可以使用命令行参数 -strategy {uniformsize|dynamic}来设置复制策略。

使用该逻辑,我尝试在 oozie 操作中执行此操作。

但是,当我执行时操作失败。

从标准输出:

查看系统日志,它似乎抓住了 -strategy 动态并试图将其放入源路径数组中:

所以从 DistCpOptions 有一个 copyStrategy 但它被设置为默认的 uniformsize 值。我首先尝试移动参数,但是两个 -Dmapreduce 参数最终都出现在源路径中(但 -update 没有)。

如何通过 Oozie 工作流配置将复制策略设置为动态?

谢谢。

0 投票
1 回答
479 浏览

java - 如何在 java 中导入 distcp 包?

如何在 Java 中导入 distcp 包?我尝试"org.apache.hadoop" % "hadoop-distcp" % "2.7.1"了依赖并使用了 import 语句,如下所示

DistCp不被认可。

我正在尝试使用工具运行器在我的 java hadoop 代码中调用 distcp,但导入不起作用。

谢谢

0 投票
2 回答
469 浏览

java - 两个远程集群之间的 DistCp 容错

我需要将一个目录从一个集群复制到另一个具有类似 HDFS 的目录(两者都是 MAPR 集群)。

我打算使用DistCpJava API。但我想避免目录中文件的重复副本。我想知道这些操作是否容错?即,如果由于连接丢失而没有完全复制文件,DistCp 是否再次启动复制以正确复制文件?