问题标签 [s3distcp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 使用 spark 从 HDFS 读取时如何避免“不是文件”异常
在初始 EMR 步骤中,我使用S3DistCP将文件树从 S3 复制到 HDFS 。hdfs dfs -ls -R hdfs:///data_dir
显示预期的文件,类似于:
“目录”被列为零字节文件。
然后我运行一个需要读取这些文件的火花步骤。因此加载代码是:
作业因 java 异常而失败
我曾经(也许天真地)假设 spark 会递归地下降“dir 树”并加载数据文件。如果我指向 S3,它会成功加载数据。
我误解了HDFS吗?我可以告诉 spark 忽略零字节文件吗?我可以使用 S3DistCp 来展平树吗?
hadoop - 带有隐藏密钥对的 Hadoop distcp 到 S3a
如何隐藏 ACCESS_ID_KEY 和 SECRET_ACCESS_KEY 以访问 Amazon S3?
我知道将它添加到 core-site.xml,但也许有不同的解决方案。因为使用这种方法,集群中的每个用户都将使用相同的密钥运行 distcp。也许有一些解决方案,比如将它存储在每个集群用户的某个属性文件中?
谢谢。
amazon-web-services - 在 AWS EMR 上为 s3distcp 配置日志记录
我想更改s3distcp
和其他 hadoop 命令以仅记录WARN
消息或更糟,而目前它记录INFO
和更糟。
如何在 AWS EMR 集群的头节点上进行配置?
这是我试图隐藏的输出示例:
hadoop - 解析参数时出错,amazon aws emr
我正在尝试通过 Linux 控制台创建一个步骤:
我跳以下错误
解析参数“--steps”时出错:预期:“,”,接收到:“+”用于输入
我该如何解决?
我正在寻找一种解决方案,将多个文件上传到 S3 和 S3DistCp 的 Hive 为 Amazon EMR 收集。还有其他方法吗?
我还有一个问题:现在我正在创建一个连接 Hive 的 SSH 隧道,我该如何连接 PHP?
目前我已经通过删除“src Pattern”解决了这个错误,但是给了我另一个错误,我在下面包含了图片
这是出现的错误
谢谢!!!
hadoop - 步骤因 exitCode、Amazon Emr Hadoop、S3DistCp 而失败
我正在尝试创建一个“步骤”并将许多小文件收集到一个文件中,这样我就可以将它分开几天。问题是我是 intetando 跑而不是让我跑。
执行它对我来说效果很好命令:
但是,如果我已经输入了命令“group by”或“srcPattern”,它不会让我做任何事情。
在 Amazon EMR 控制台中创建“步骤”后,一直给我错误。你指出了文件
命令:
错误:
amazon-emr - 如何正确 EMR S3DistCp groupBy?
我正在使用 aws .net sdk 向 EMR 运行 s3distcp 作业,以使用 --groupBy arg 连接文件夹中的所有文件。但是无论我尝试过什么“groupBy”arg,它总是失败,或者只是复制文件而不连接,就像在 arg 列表中没有指定 --groupBy 一样。
该文件夹中的文件是 spark saveAsTextFiles,命名如下:
部分-0000
部分-0001
部分-0002
...
...
loops - s3-dist-cp 和 hadoop distcp 作业在 EMR 中无限循环
我正在尝试将 193 GB 数据从 s3 复制到 HDFS。我正在为 s3-dist-cp 和 hadoop distcp 运行以下命令:
我在主节点上运行这些,并检查转移的金额。花了大约一个小时,复制过来后,所有内容都被删除了,我的集群中的 4 个核心实例中的磁盘空间显示为 99.8%,并且 hadoop 作业永远运行。一旦我运行命令,
这会立即打印,然后复制一个小时的数据。它重新开始。
我在这里错过了什么吗?任何帮助表示赞赏。
另外我想知道在哪里可以找到主节点上的日志文件以查看作业是否失败并因此循环?谢谢
hadoop - 带有文件列表的 Hadoop distcp
我想使用 distcp 将文件列表(> 1K 文件)复制到 hdfs 中。我已经在本地目录中存储了文件列表,现在我可以使用 -f 复制所有文件吗?如果是,我必须在文件列表文件中维护什么格式?还是有其他更好的方法?
amazon-s3 - 使用 S3DistCp 将文件从 S3 复制到 EMR
我正在努力寻找在我的 AWS EMR 集群中使用 S3DistCp 的方法。
一些旧示例展示了如何将 s3distcp 添加为 EMR 步骤使用elastic-mapreduce
命令,该命令不再使用。
其他一些消息来源建议使用s3-dist-cp
当前 EMR 集群中没有的命令。甚至官方文档(在线和 EMR 开发人员指南 2016 pdf)也提供了这样的示例:
但是路径中没有lib
文件夹。/home/hadoop
我在这个文件夹中找到了一些 hadoop 库:/usr/lib/hadoop/lib
,但我无法s3distcp
从任何地方找到。
然后我发现一些 S3 存储桶中有一些库可用。例如,从这个问题中,我找到了这条路径:s3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar
。这似乎是朝着正确方向迈出的一步,因为使用这些参数从 AWS 接口向正在运行的 EMR 集群添加一个新步骤会启动该步骤(之前的尝试没有这样做)但在大约 15 秒后失败:
这导致了以下错误:
我认为这可能是由于我的 S3 位置(与端点相同)与来自 us-east 的 s3distcp 脚本的位置不兼容造成的。我用 eu-west-1 替换了它,但仍然遇到关于身份验证的相同错误。我使用了类似的设置来运行我的 scala 脚本(带有“command-runner.jar”脚本的自定义 jar 类型,第一个参数“spark-submit”来运行 spark 作业,这很有效,我没有遇到这个问题之前的认证。
将文件从 S3 复制到 EMR 集群的最简单方法是什么?通过使用 AWS 开发工具包(用于 Go 语言)或以某种方式在 Scala spark 脚本中添加额外的 EMR 步骤?或者来自 AWS EMR 界面,但不是来自 CLI,因为我需要它自动化。
hadoop - 使用 distcp 命令复制到 s3 位置
我正在使用以下命令将一些数据从 HDFS 复制到 S3:
2015_09_19_03_30
存储桶在 S3 中不存在。它成功地将目录的数据复制/user/hive/data/test/test_folder=2015_09_19_03_30
到 S32015_09_19_03_30
存储桶中,但是当我再次执行相同的命令时,它会在 S3 中创建另一个存储桶。
我希望这两个文件都应该在同一个桶中。