问题标签 [distcp]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

173 问题

0 投票

1 回答

666 浏览

hadoop - 是否可以在 2 个 Hdfs 目录（单独的集群）之间使用 distcp 来 distcp 文件（逗号分隔）？

我只需要 distcp x 个文件。

找不到办法。

一个想法是将其复制到一个临时目录上，然后对该目录进行distcp。完成后，我可以删除该临时目录。
单独的 distcp 命令（针对每个文件）。这可能很痛苦。

不确定是否允许逗号分隔。

有任何想法吗？

提前致谢。

2017-05-03T00:46:22.900

0 投票

0 回答

137 浏览

amazon-s3 - 将数据从 Google Cloud 存储传输到 AWS S3

我正在将数据从其中传输Google Cloud Storage到AWS S3使用distcp中EMR（我已经进行了一些配置更改EMR以实现此目的）。数据传输安全吗？如果没有，还有哪些其他选择？

amazon-s3 google-cloud-storage amazon-emr distcp data-security

2017-05-08T17:46:07.247

0 投票

1 回答

135 浏览

hadoop - oozie distcp 操作中的正则表达式

我正在尝试将符合某些条件的所有文件复制到一个文件夹中

*这里的符号${CURRENT_DATE_NO_DASH}_*代表 A 或 B 或 C 等。它搜索所有文件夹。如果我使用${CURRENT_DATE_NO_DASH}_A它只会搜索 1 个文件。我怎样才能让它只占用所有文件夹中的 2 个？我试过做(A|B)，但这没有用。

hadoop oozie distcp

2017-06-12T14:06:43.813

0 投票

1 回答

105 浏览

java - 从 jsp servlet 运行 mapreduce 作业

我有一个简单的 java 程序，它包装 distcp 以在 hadoop 集群上复制文件。我可以从 IDE 和 hadoop cli 成功运行它。

我想要一个 jsp Web 应用程序，以便人们可以使用 Web 界面与我的程序进行交互。

我创建了一个包含所有依赖项的胖 jar，并将其部署在我的 Web 应用程序中。现在的问题是，每当程序要提交 distcp 作业时，它都会给出以下错误：

我检查了mapreduce.framework.name，它确实是yarn。

有任何想法吗？

更新1：

经过一些调试，我发现以下代码：

当我在本地运行它时，我得到：

但是当它从网络服务器运行时，我得到：

我仍然无法找出为什么会发生这种情况。我在 webserver 中部署的 fat jar 中有YarnClientProtocolProvider。

更新2：

我创建的 uber jar 以某种方式合并了依赖 jar 的 META-INF/services 目录下的所有服务提供者声明，因此在那里写入的最后一个文件仅包含“org.apache.hadoop.mapred.LocalClientProtocolProvider”。

我仍然想知道为什么当我使用

它识别 'org.apache.hadoop.mapred.YarnClientProtocolProvider' 虽然它不在 my.jar 的 META-INF/services 目录下的服务提供者中。

现在我认为问题应该是如何创建一个不合并服务提供者条目的 uber jar。

java jsp hadoop hadoop-yarn distcp

2017-06-16T12:49:39.953

0 投票

2 回答

699 浏览

hadoop - Hadoop distcp - 可以保持每个文件相同（保持文件大小）？

当我运行一个简单的 distcp 命令时：

src-dir我对dest-dir的大小（以字节为单位）略有不同

我的问题是：

是什么导致了这种差异？我的 dest 目录的内容是否仍然与原始目录相同？
最重要的是 - 我是否可以设置参数以确保每个文件看起来与其 src 对应部分完全相同（即相同的文件大小）？

hadoop hdfs distcp s3distcp

2017-06-18T08:18:08.640

0 投票

1 回答

392 浏览

hadoop - 如何列出活动的 DISTCP 作业？

如何列出活动的 DISTCP 作业？

我正在两个集群之间运行 distcp 作业。 hadoop distcp hdfs://x/y /x/y

我想连续运行它，但需要确保现有distcp任务完成。

我在源集群和目标集群上都尝试了以下操作，但我看不到复制操作。 mapred job -list all

hadoop jobs distcp

2017-08-02T10:54:21.583

0 投票

2 回答

18661 浏览

hadoop - hadoop fs -rm -skipTrash 不起作用

我在 scipt 完成之前停止了它，剩下的很多.distcp.tmp.attempt文件在 dst 目录中移动

现在我想清理 dst 目录。运行后

大多数文件都被删除了，但有些仍然存在（至少 HUE 是这样显示的）。奇怪的是，每次我运行时hadoop fs -rm -skipTrash，根据 HUE，剩余文件的数量都会或多或少地变化。

我试过了

并看到一些应该删除的文件仍然存在。然后我跑

十几次，总是有更多的文件要删除（仍然有）。怎么了？

还

每次我以色调刷新页面时，文件数量都会增加。暂停。

编辑

在命令行中停止 distcp 似乎并没有真正杀死这项工作。这就是原因。

hadoop rm distcp

2017-08-09T15:36:00.933

0 投票

1 回答

155 浏览

hadoop - 具有选定列的 HDFS 集群内副本

我正在使用 Avro 文件将数据存储在 HDFS 中。我需要从一个 avro 文件中复制选定的列数据，并将其发送到具有自己的模式文件（具有选定列信息）的同一集群中的另一个位置。我怎样才能做到这一点？是否可以使用 Hive 实现？或者 HDFS 中是否有任何实用程序可以帮助我做到这一点？

这是必需的，因为一个组必须能够访问整个表，而另一个组应该只能访问少数列。因此，我需要它们位于 HDFS 中的单独位置，只有所需的架构和 avro 文件。

hadoop hive hdfs avro distcp

2017-08-10T07:34:24.913

0 投票

1 回答

557 浏览

amazon-s3 - s3DistCp 文件串联顺序

我正在尝试使用 AWS EMR 上的S3DistCp工具将多个文件（1.txt、2.txt、3.txt）合并到一个 gzip 文件中。我正在使用 groupBy 标志。现在，输出看起来像是源文件按名称以相反顺序串联起来的。

所以结果的内容顺序是 3.txt、2.txt 和 1.txt。

这是设计的方式吗？有没有办法允许以创建文件的相同顺序（按创建时间）进行连接？

amazon-s3 emr distcp s3distcp

2017-08-11T00:33:32.313

0 投票

0 回答

494 浏览

hadoop - 从 HA 到非 HA 集群使用 distcp 需要哪些配置？

我想使用 Distcp 将数据从 HA 集群复制到非 HA 集群。我为此目的使用以下命令：

hadoop distcp hdfs://nameserviceofHAcluster/apps/hive/warehouse/tabletobecopied hdfs://namenode2/apps/hive/warehouse/

但它给出了以下错误：

引起：java.net.UnknownHostException：namenode2 ... 16 更多

hadoop hdfs distcp

2017-08-11T10:09:49.563

1 2 3 4 5 6 7 8 9 10

问题标签 [distcp]

Reference