问题标签 [s3distcp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
732 浏览

amazon-web-services - s3distcp 无法从 HDFS 复制到 S3

我正在尝试将 csv 文件从 HDFS 复制到 S3,但作业失败并出现以下错误:

我尝试增加内存并将工人数量设置为 1,我的论点如下:

我还确保 EMR 角色具有完整的 S3 访问权限。有关如何解决此错误的任何建议?

0 投票
1 回答
557 浏览

amazon-s3 - s3DistCp 文件串联顺序

我正在尝试使用 AWS EMR 上的S3DistCp工具将多个文件(1.txt、2.txt、3.txt)合并到一个 gzip 文件中。我正在使用 groupBy 标志。现在,输出看起来像是源文件按名称以相反顺序串联起来的。

所以结果的内容顺序是 3.txt、2.txt 和 1.txt。

这是设计的方式吗?有没有办法允许以创建文件的相同顺序(按创建时间)进行连接?

0 投票
2 回答
910 浏览

hadoop - java.lang.IllegalArgumentException:源文件列表和源路径都存在

我正在尝试distcp通过执行以下命令将文件从 HDFS 复制到 S3

但我收到以下错误:

0 投票
1 回答
1030 浏览

hadoop - 从 HDFS 复制到 S3 时使用 GroupBy 合并文件夹中的文件

我在 HDFS 中有以下文件夹:

每个文件夹中有近 50 个文件。我的目的是合并文件夹中的所有文件以获取单个文件,同时将其从 HDFS 复制到 S3 上。我遇到的问题是带有groupBy 选项的正则表达式。我试过这个,这似乎不起作用:

该命令本身有效,但我没有将每个文件夹中的文件合并到一个文件中,这让我相信问题出在我的正则表达式上。

0 投票
3 回答
6840 浏览

hadoop - Hadoop distcp 未提供 AWS 凭证

我有一大堆 S3files 想放在 HDFS 上。鉴于涉及的文件数量,我首选的解决方案是使用“分布式副本”。但是由于某种原因,我无法让 hadoop distcp 获取我的 Amazon S3 凭证。我使用的命令是:

但是,这与不存在“-D”参数的行为相同。

我查看了 hadoop distcp 文档,但找不到关于为什么这不起作用的解决方案。我试过 -Dfs.s3n.awsAccessKeyId 作为一个也不起作用的标志。我已经读过如何明确地传递凭据不是一个好习惯,所以也许这只是一些以其他方式做的 gentil 建议?

应该如何使用 distcp 传递 S3 凭据?有谁知道?

0 投票
2 回答
1960 浏览

amazon-emr - 使用 s3-dist-cp 合并 parquet 文件

只是想知道是否可以使用 s3-dist-cp 工具来合并镶木地板文件(快速压缩)。我尝试使用“--groupBy”和“--targetSize”选项,它确实将小文件合并成更大的文件。但是我无法在 Spark 或 AWS Athena 中读取它们。在 aws athena 中,我收到以下错误:

任何帮助表示赞赏。

0 投票
2 回答
1248 浏览

hadoop - 使用 s3 dist cp 将数据从非 emr 集群复制到 s3 的权限问题

陈述我的问题
1)我想将我们的 cdh hadoop 集群备份到 s3
2)我们有一个正在运行的 emr 集群
3)我正在尝试从 emr 集群运行 s3distcp,将 src 作为 cdh 远程集群的 hdfs URL,将目标作为 s3 。

出现以下错误:原因:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):权限被拒绝:user=mapred, access=RE AD_EXECUTE, inode="/tmp/hadoop-mapred/映射/分期“

以下是我在这里浏览文档后的问题

http://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html

1)这可行吗?我可以从 s3distcp 文档中看到可以给出任何 hdfs url。但我找不到任何关于它在外部集群情况下如何工作的文档。

2)我想知道在文档中提到的暂存目录(有人提到s3distcp在复制到s3之前将数据复制到这个目录)是在哪里创建的,即在远程集群或emr集群中。

0 投票
1 回答
342 浏览

hadoop - 本地 hadoop 集群上的 S3distcp 不工作

我正在尝试从我的本地 hadoop 伪集群运行 s3distcp。作为执行 s3distcp.jar 的结果,我收到了以下堆栈跟踪。似乎减速器任务失败了,但我无法确定可能导致减速器失败的原因:-

0 投票
1 回答
449 浏览

apache-spark - 在 AWS 中重命名和移动 Spark 输出文件需要很长时间

我有一个 spark 工作,我有一个巨大的文件作为输出 300 gb 到 S3 。我的要求是重命名所有零件文件,然后我们必须移动到最终文件夹。

我进行了研究,但找不到解决方案,我可以在 spark 作业本身中重命名我的 spark 输出文件。

所以我想出了一个计划,从 S3 读回 spark 输出文件,然后再次重命名,然后在 S3 文件夹中再次写回。

但是我的 Spark 作业需要 25 分钟才能完成,但在 S3 中再次阅读、重命名和复制需要 45 分钟。

这对我来说太令人沮丧了。

无论如何我可以使这个过程更快吗?问题是在 spark 作业之后,此过程仅在核心节点上运行,因此需要很长时间。

这就是我所做的。

有没有办法利用以下两个选项

  1. S3 DIST CP 命令 ? 据我研究,我没有发现在 S3 dist CP 中重命名文件。我正在根据文件路径进行重命名。

  2. 我可以使用 shell 命令活动来读取重命名和复制吗?

0 投票
1 回答
507 浏览

apache-spark - 如何使用 distcp 在 S3 中将 hdfs 文件作为 ORC 文件移动?

我需要将 hdfs 中的文本文件移动到 aws s3。HDFS 中的文件是文本文件,没有分区。迁移后的 S3 文件的输出应该在 orc 中,并在特定列上分区。最后在这些数据之上创建一个配置单元表。

实现此目的的一种方法是使用 spark。但我想知道,这是否可以使用 Distcp 将文件复制为 ORC。

想知道任何其他最佳选择可用于完成上述任务。

提前致谢。