问题标签 [distcp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1714 浏览

hadoop - Hadoop distcp 不工作

我正在尝试将数据从一个 HDFS 复制到另一个 HDFS。有什么建议为什么第一个有效但第二个无效?

(作品)

(不工作)

谢谢!

0 投票
0 回答
395 浏览

hadoop - 从 S3 下载大量数据到本地计算机?-s3distcp

目前使用distcp速度很慢,复制 1 小时的日志需要 4:16 分钟,而我编写的自定义函数只需要 16 秒。鉴于亚马逊提供了s3distcp涉及日志的示例,我想试一试并测试其性能。

我知道这是可能的,distcp但是否可以s3distcp在本地机器上使用将大量数据(可能 100gb+)复制到本地机器上的 hfs 集群而不使用 EMR?

Amazon 和后续教程和文章仅将s3distcp能力作为 EMR 中的一个步骤。

0 投票
3 回答
6847 浏览

hadoop - hadoop distcp 引发无法找到或加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

当我运行 distcp 将数据从 s3 移动到我的本地 hdfs 时,在启动 map reduce 作业以复制数据期间出现此异常:

我检查了所有可能的在线文章。我的yarn-site.xml文件包含

<property> <name>yarn.application.classpath</name> <value> $HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/*, $HADOOP_COMMON_HOME/lib/*, $HADOOP_HDFS_HOME/*, $HADOOP_HDFS_HOME/lib/*, $HADOOP_MAPRED_HOME/*, $HADOOP_MAPRED_HOME/lib/*, $HADOOP_YARN_HOME/*, $HADOOP_YARN_HOME/lib/*, $HADOOP_HOME/share/hadoop/mapreduce/, $HADOOP_HOME/share/hadoop/mapreduce/lib/ </value> </property> 对于集群的每个节点,我检查并设置了这些变量并指向正确的文件夹,实际上$HADOOP_HOME/share/hadoop/mapreduce/指向的hadoop-mapreduce-client-app-2.7.1.jar那个是包含org.apache.hadoop.mapreduce.v2.app.MRAppMaster
任何建议的 jar?

0 投票
1 回答
1860 浏览

hadoop - distcp 失败并出现错误“设备上没有剩余空间”

我正在将 HDFS 快照复制到 S3 存储桶,出现以下错误:我正在执行的命令是:hadoop distcp /.snapshot/$SNAPSHOTNAME s3a://$ACCESSKEY:$SECRETKEY@$BUCKET/$SNAPSHOTNAME

但是设备上有足够的空间大约 4 TB,请帮助。

0 投票
1 回答
580 浏览

hadoop - 您可以将 s3distcp 与 gzip 输入一起使用吗?

我正在尝试使用 s3distcp 来编译很多小的 gzip 文件,不幸的是这些文件没有以gz扩展名结尾。s3distcp 有一个outputCodec可用于压缩输出的参数,但没有对应的inputCodec. 我正在尝试使用--jobconfhadoop 流调用,但它似乎没有做任何事情(输出仍然是 gzip 压缩的)。我正在使用的命令是

任何想法可能会发生什么?我正在运行 AWS EMR AMI-3.9。

0 投票
1 回答
1255 浏览

java - 无法使用 distcp 将一个 HDFS 数据复制到另一个 HDFS 位置

我正在尝试将一个 HDFS 数据复制到另一个 HDFS 位置。

我可以使用“distcp”命令实现相同的目的

但我想尝试使用 Java Api。经过长时间的搜索,找到了一段代码并执行了。但它没有将我的 src 文件复制到目的地。

我做错什么了吗。请建议

0 投票
1 回答
659 浏览

hadoop - AWS 实例 distcp 到 s3 - 访问密钥

如果我有一个使用角色创建的 EC2 实例,那么获取访问密钥以执行从 hdfs 到 s3 的 distcp 的最佳实践方法是什么?

我不想使用我们的自动化部署工具向实例发送访问密钥,因为这意味着将密钥存储在显而易见的地方。实例有没有办法使用 CLI 请求一组密钥?

我需要他们hadoop distcp /data s3n://<access_key>:<secret_key>@mybucket/baackup/data

0 投票
1 回答
4079 浏览

hadoop - Hive中如何使用DistCp直接将数据转成表?

我正在使用 DistCp 将数据从集群 1 复制到集群 2。我成功地将表数据从集群 1 复制到集群 2。但是,使用 hdfs,数据已发送到文件浏览器。

是否有任何直接方法可以通过使用 DistCp 命令将此 hdfs 数据转换为 Hive 表(包括数据类型、分隔符...等)?我当然可以查询它以从 hdfs 收集数据,但是我必须将它们一一转换。试图寻找有效的方法来解决这个问题。谢谢!

例子:

0 投票
1 回答
47 浏览

hadoop - Falcon Prism 是否应该安装在与现有集群不同的机器上?

我正在尝试了解Falcon Distributed Cluster的设置。

我有集群 A 和集群 B,它们都有 Falcon 服务器(以及 namenode、oozie、hive 等)。现在,要安装 Prism,最好的主意是什么?我应该将它安装在其中一个集群(与 falcon 服务器不同的节点)还是另一台机器上?如果 Prism 设置在第三个集群(单节点)上,它是否也应该运行 namenode、oozie 等组件?

0 投票
3 回答
13611 浏览

hadoop - Hadoop:为 distcp 指定纱线队列

在我们的集群上,我们设置了动态资源池。

设置规则以便第一个纱线将查看指定的队列,然后查看用户名,然后查看主组......

但是,使用distcp我似乎无法指定队列,它只是将其设置为主组。

这就是我现在运行它的方式(不起作用):