“amazon-emr”的相关标签问题

0 投票

1 回答

1258 浏览

python - 确保 Hadoop EMR 上的日志

我在 Amazon EMR（15 个节点，>1.5 小时）上有一个长时间运行的 Hadoop 流作业。该作业在完成度约为 75% 时失败。我将 Python 用于 mapper 和 reducer。

我做了以下优化：

在使用模块发布日志条目后，我还添加了以下内容logging：

尝试捕获错误无济于事：Hadoop 日志文件不显示我的错误 :(

如何让 Hadoop 记录我的消息而不丢弃任何消息？？？

2012-06-12T00:05:28.177

0 投票

2 回答

15158 浏览

hadoop - Hive Table 添加分区加载所有子目录

我正在使用 hive（带有外部表）来处理存储在 amazon S3 上的数据。

我的数据分区如下：（ group/team/dt/例如，数据文件可能存储在路径中group=myGroup/team=myTeam/dt=20120603）

我想为几个团队（在不同的组中）处理数据。由于 RCOVER PARTITIONS 需要很长时间，我想将基于组和团队值的多个分区添加到配置单元表（即，给定该团队中所有可用日期的组和团队负载数据）。

我正在寻找的功能是：

谢谢！

hadoop hive amazon-emr emr

2012-06-12T12:48:17.833

0 投票

1 回答

1374 浏览

amazon-web-services - 如何让 EMR 继续运行

可能重复：重复
使用 Amazon Elastic MapReduce 实例

我可以让已启动的 EMR 集群继续运行并继续向其提交新作业，直到我完成（比如几天后）然后关闭集群，还是我必须在 EC2 中启动我自己的集群才能这样做？

amazon-web-services amazon-emr emr

2012-06-13T00:14:42.350

0 投票

1 回答

1662 浏览

hadoop - Amazon EMR：为每个 EMR 实例设置唯一数量的映射器和缩减器

我正在运行一个包含 M 个核心实例和 N 个任务实例的 Amazon EMR 集群。

我的作业每天运行多次并且对时间很敏感，因此我保持 M 核心实例 24/7 不间断运行，这样我就没有与 S3 之间的数据传输开销。

N 个任务节点正在根据需要动态启动和终止。

M 个核心节点是 c1.mediums，N 个任务节点是 m2.xlarge。

有没有办法为每个实例配置 mapred.tasktracker.map.tasks.maximum 和 mapred.tasktracker.reduce.tasks.maximum ？

对于我想要的核心节点： mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=1

对于我至少想要的任务节点： mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=2

请注意，任务跟踪器也在核心节点上运行，因此我认为此配置需要基于每个实例，具体取决于实例大小。

这可能吗？如果是这样，我该如何设置这种类型的配置？

hadoop configuration mapreduce amazon-emr

2012-06-21T15:08:23.863

0 投票

2 回答

6652 浏览

amazon-web-services - 在输出到 HDFS 的 EMR 作业中使用 distcp 和 s3distcp 时出现问题

我在 AWS 的 EMR 上运行了一项作业，并将输出存储在 EMR 作业的 HDFS 中。然后我尝试通过 distcp 或 s3distcp 将结果复制到 S3，但两者都失败，如下所述。（注意：我不只是将我的 EMR 作业的输出直接发送到 S3 的原因是由于我在Where is my AWS EMR reducer output for my completed job 中描述的（当前未解决的）问题（应该在 S3 上，但那里什么也没有)?

对于 distcp，我运行（按照这篇文章的建议）：

在错误日志（/mnt/var/log/hadoop/steps/8）中，我得到：

对于 s3distcp，我运行（按照s3distcp 文档）：

在错误日志（/mnt/var/log/hadoop/steps/9）中，我得到：

任何想法我做错了什么？

更新：有人在 AWS 论坛上回复有关类似 distcp 错误的帖子提到 IAM 用户用户权限，~~但我不知道这意味着什么~~（编辑：我尚未创建任何 IAM 用户，因此它使用默认值); 希望它有助于查明我的问题。

更新 2：我在 namenode 日志文件中注意到此错误（重新运行 s3distcp 时）。我将查看默认 EMR 权限，看看是否是我的问题：

更新 3：我联系了 AWS Support，他们没有发现问题，所以现在正在等待他们的工程团队的回复。当我听到更多消息时会回复

amazon-web-services elastic-map-reduce amazon-emr emr

2012-06-24T21:21:32.930

0 投票

3 回答

2758 浏览

hadoop - 是否可以在 S3 中运行 hadoop fs -getmerge？

我有一个 Elastic Map Reduce 作业，它正在 S3 中编写一些文件，我想连接所有文件以生成一个唯一的文本文件。

目前我正在手动将包含所有文件的文件夹复制到我们的 HDFS (hadoop fs copyFromLocal)，然后我正在运行 hadoop fs -getmerge 和 hadoop fs copyToLocal 来获取文件。

反正有没有直接在S3上使用hadoop fs？

hadoop amazon-s3 elastic-map-reduce amazon-emr

2012-06-29T11:21:25.620

0 投票

1 回答

781 浏览

dictionary - Having trouble running a custom jar on Amazon AWS

I'm having trouble running a custom jar on Elastic Map-Reduce

I'm using jdk1.6.0_26, Hadoop 0.20.205, and compiling with Eclipse on my computer and everything works perfectly fine

for example if I ran the following on my computer it would be successful hadoop jar MaxTemperature.jar input/temperature.txt output

I specified the jar as the following on AWS s3n://chrishadoop/MaxTemperature.jar

and I specified the arguments as s3n://chrishadoop/input/temperature.txt s3n://chrishadoop/output

I did not specify the main class because I pointed to it in the manifest

Here is the jar I'm using, I will make it public for a little while

https://s3.amazonaws.com/chrishadoop/MaxTemperature.jar

Here is the error I'm getting

dictionary hadoop amazon-emr

2012-07-08T19:58:48.223

0 投票

1 回答

235 浏览

hadoop - Hadoop运行时错误

我有一个与 hadoop 合作的学校项目，该项目将托管在亚马逊 EMR 中。

起初，我试图用简单的 wordcount 程序来理解它，它在 eclipse IDE 上运行良好。

但是，如果我尝试从命令行运行，我会遇到错误。

线程“main”中的异常 java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration at counter.WordCount.main(WordCount.java:56) 原因：java.lang.ClassNotFoundException: org.apache.hadoop.conf .在 java.security.AccessController.doPrivileged(Native Method) 的 java.net.URLClassLoader$1.run(URLClassLoader.java:202) 的配置。

您对这个错误有什么建议以及了解 hadoop 和 EMR 的任何资源吗？

谢谢，喵

hadoop amazon-emr

2012-07-11T17:02:03.180

0 投票

7 回答

101120 浏览

json - 如何使用 JSON 数据制作 HIVE 表？

我想用一些 JSON 数据（嵌套）创建一个 Hive 表并对其运行查询？这甚至可能吗？

我已经将 JSON 文件上传到 S3 并启动了 EMR 实例，但我不知道在 hive 控制台中输入什么才能让 JSON 文件成为 Hive 表？

有没有人有一些示例命令让我开始，我找不到任何对谷歌有用的东西......

json hadoop hive amazon-emr emr

2012-07-13T22:37:12.983

0 投票

1 回答

1118 浏览

amazon-web-services - 将参数传递给 Elastic MapReduce 流式步骤

是否可以将参数传递给 Amazon EMR 中的流式处理步骤？似乎有一个“额外的参数”字段，但参数似乎被传递给流媒体 jar，而不是流媒体脚本本身。

甚至可能吗？

amazon-web-services amazon-emr

2012-07-19T16:39:07.360

问题标签 [amazon-emr]

Reference