问题标签 [distcp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
666 浏览

hadoop - 是否可以在 2 个 Hdfs 目录(单独的集群)之间使用 distcp 来 distcp 文件(逗号分隔)?

我只需要 distcp x 个文件。

找不到办法。

  1. 一个想法是将其复制到一个临时目录上,然后对该目录进行distcp。完成后,我可以删除该临时目录。

  2. 单独的 distcp 命令(针对每个文件)。这可能很痛苦。

不确定是否允许逗号分隔。

有任何想法吗?

提前致谢。

0 投票
0 回答
137 浏览

amazon-s3 - 将数据从 Google Cloud 存储传输到 AWS S3

我正在将数据从其中传输Google Cloud StorageAWS S3使用distcpEMR(我已经进行了一些配置更改EMR以实现此目的)。数据传输安全吗?如果没有,还有哪些其他选择?

0 投票
1 回答
135 浏览

hadoop - oozie distcp 操作中的正则表达式

我正在尝试将符合某些条件的所有文件复制到一个文件夹中

*这里的符号${CURRENT_DATE_NO_DASH}_*代表 A 或 B 或 C 等。它搜索所有文件夹。如果我使用${CURRENT_DATE_NO_DASH}_A它只会搜索 1 个文件。我怎样才能让它只占用所有文件夹中的 2 个?我试过做(A|B),但这没有用。

0 投票
1 回答
105 浏览

java - 从 jsp servlet 运行 mapreduce 作业

我有一个简单的 java 程序,它包装 distcp 以在 hadoop 集群上复制文件。我可以从 IDE 和 hadoop cli 成功运行它。

我想要一个 jsp Web 应用程序,以便人们可以使用 Web 界面与我的程序进行交互。

我创建了一个包含所有依赖项的胖 jar,并将其部署在我的 Web 应用程序中。现在的问题是,每当程序要提交 distcp 作业时,它都会给出以下错误:

我检查了mapreduce.framework.name,它确实是yarn

有任何想法吗?


更新1:

经过一些调试,我发现以下代码:

当我在本地运行它时,我得到:

但是当它从网络服务器运行时,我得到:

我仍然无法找出为什么会发生这种情况。我在 webserver 中部署的 fat jar 中有YarnClientProtocolProvider


更新2:

我创建的 uber jar 以某种方式合并了依赖 jar 的 META-INF/services 目录下的所有服务提供者声明,因此在那里写入的最后一个文件仅包含“org.apache.hadoop.mapred.LocalClientProtocolProvider”。

我仍然想知道为什么当我使用

它识别 'org.apache.hadoop.mapred.YarnClientProtocolProvider' 虽然它不在 my.jar 的 META-INF/services 目录下的服务提供者中。

现在我认为问题应该是如何创建一个不合并服务提供者条目的 uber jar。

0 投票
2 回答
699 浏览

hadoop - Hadoop distcp - 可以保持每个文件相同(保持文件大小)?

当我运行一个简单的 distcp 命令时:

src-dir我对dest-dir的大小(以字节为单位)略有不同

我的问题是:

  1. 是什么导致了这种差异?我的 dest 目录的内容是否仍然与原始目录相同?
  2. 最重要的是 - 我是否可以设置参数以确保每个文件看起来与其 src 对应部分完全相同(即相同的文件大小)?
0 投票
1 回答
392 浏览

hadoop - 如何列出活动的 DISTCP 作业?

如何列出活动的 DISTCP 作业?

我正在两个集群之间运行 distcp 作业。 hadoop distcp hdfs://x/y /x/y

我想连续运行它,但需要确保现有distcp任务完成。

我在源集群和目标集群上都尝试了以下操作,但我看不到复制操作。 mapred job -list all

0 投票
2 回答
18661 浏览

hadoop - hadoop fs -rm -skipTrash 不起作用

我使用将一些文件从目录复制到目录

我在 scipt 完成之前停止了它,剩下的很多.distcp.tmp.attempt文件在 dst 目录中移动

现在我想清理 dst 目录。运行后

大多数文件都被删除了,但有些仍然存在(至少 HUE 是这样显示的)。奇怪的是,每次我运行时hadoop fs -rm -skipTrash,根据 HUE,剩余文件的数量都会或多或少地变化。

我试过了

并看到一些应该删除的文件仍然存在。然后我跑

十几次,总是有更多的文件要删除(仍然有)。怎么了?

每次我以色调刷新页面时,文件数量都会增加。暂停。

编辑

在命令行中停止 distcp 似乎并没有真正杀死这项工作。这就是原因。

0 投票
1 回答
155 浏览

hadoop - 具有选定列的 HDFS 集群内副本

我正在使用 Avro 文件将数据存储在 HDFS 中。我需要从一个 avro 文件中复制选定的列数据,并将其发送到具有自己的模式文件(具有选定列信息)的同一集群中的另一个位置。我怎样才能做到这一点?是否可以使用 Hive 实现?或者 HDFS 中是否有任何实用程序可以帮助我做到这一点?

这是必需的,因为一个组必须能够访问整个表,而另一个组应该只能访问少数列。因此,我需要它们位于 HDFS 中的单独位置,只有所需的架构和 avro 文件。

0 投票
1 回答
557 浏览

amazon-s3 - s3DistCp 文件串联顺序

我正在尝试使用 AWS EMR 上的S3DistCp工具将多个文件(1.txt、2.txt、3.txt)合并到一个 gzip 文件中。我正在使用 groupBy 标志。现在,输出看起来像是源文件按名称以相反顺序串联起来的。

所以结果的内容顺序是 3.txt、2.txt 和 1.txt。

这是设计的方式吗?有没有办法允许以创建文件的相同顺序(按创建时间)进行连接?

0 投票
0 回答
494 浏览

hadoop - 从 HA 到非 HA 集群使用 distcp 需要哪些配置?

我想使用 Distcp 将数据从 HA 集群复制到非 HA 集群。我为此目的使用以下命令:

hadoop distcp hdfs://nameserviceofHAcluster/apps/hive/warehouse/tabletobecopied hdfs://namenode2/apps/hive/warehouse/

但它给出了以下错误:

引起:java.net.UnknownHostException:namenode2 ... 16 更多