问题标签 [amazon-emr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2981 问题

0 投票

1 回答

583 浏览

python - mrjob：是否可以在 VPC 中运行作业流程？

我正在使用 mrjob 在 EMR 上运行一些 MapReduce 任务，并且我想在 VPC 中运行作业流。我查看了 mrjob 和 boto 的文档，似乎没有一个支持这一点。

有谁知道这是否可行？

2012-09-01T03:29:44.240

0 投票

1 回答

11203 浏览

hadoop - hadoop 从 hdfs 复制到 S3

我已成功完成 Amazon EMR 上的 mahout 矢量化作业（使用Elastic MapReduce 上的 Mahout作为参考）。现在我想将结果从 HDFS 复制到 S3（以在未来的集群中使用它）。

失败的。发现这个建议：使用 s3distcp也试过了：

在这两种情况下，我都有相同的错误：java.net.UnknownHostException: unknown host: my.bucket
下面是第二种情况的完整错误输出。

hadoop amazon-s3 amazon-web-services amazon-emr emr

2012-09-06T13:49:50.033

0 投票

1 回答

361 浏览

java - 为什么身份映射器会内存不足？

在一个 reduce-only Hadoop 作业中，输入文件由身份映射器处理，并在不修改的情况下发送到 reducer。在我的一些工作中，我很惊讶地看到该工作在映射阶段失败，出现“内存不足错误”和“超出 GC 开销限制”。

据我了解，身份映射器上的内存泄漏是不可能的。这种错误的原因是什么？

java hadoop out-of-memory amazon-emr

2012-09-06T14:48:28.710

0 投票

1 回答

1183 浏览

amazon-s3 - DynamoDB S3 导入

从S3 导入到 DynamoDB时，这是否计入预置的写入吞吐量？

我有一个只能读取的服务，除了来自 S3 中的多 GB 文件的批量更新。我们不想为整个月的预置写入付费，并且考虑到 AWS 政策只允许预置速率一次翻倍，从 0 写入扩展到数百万可能需要一段时间。

amazon-s3 amazon-web-services amazon-dynamodb amazon-emr emr

2012-09-07T12:01:31.563

0 投票

1 回答

588 浏览

hadoop - 在亚马逊 EMR 上运行 HBase 时，为什么 /tmp 文件夹与实际数据相比很大？

我们在亚马逊 EMR 上有一个默认配置的 hadoop+hbase 集群，因此mapred.child.tmp和都hbase.tmp.dir指向/tmp. 我们的集群已经运行了一段时间，现在/tmp是 500Gb，而实际/hbase数据是 70Gb。

这种差异似乎太大了，我们应该定期删除一些/tmp数据吗？

hadoop hbase amazon-emr

2012-09-17T13:37:52.980

0 投票

2 回答

1247 浏览

hadoop - 使用 piggybank 和 AvroStorage 解决 EMR 问题

我在 EMR 上运行一个猪脚本，它读取以 Avro 格式存储的数据。它一直在本地运行，但为了让脚本的其他部分在 EMR 上运行，我不得不将我使用的 piggybank.jar 恢复为 0.9.2 而不是 0.10.0。进行该更改后，AvroStorage 静默读取任何数据失败，仅返回零记录。日志中没有提到任何内容。这是脚本：

同样，如果 piggybank.jar 是 0.10.0 版，它可以工作。如果是 0.9.2 版，则不是。我应该使用任何其他库的不同版本吗？我尝试使用 avro-1.5.3.jar，但也没有用。

另一个注意事项：如果我describe a;正确地输出模式。

hadoop apache-pig elastic-map-reduce amazon-emr avro

2012-09-20T22:39:17.327

0 投票

1 回答

181 浏览

hadoop - 从亚马逊 hbase 读取数据

谁能建议我是否可以使用 org.apache.hadoop.conf.Configuration 和 org.apache.hadoop.hbase.client.HTablePool 从亚马逊 hbase 读取数据。

我们正在迁移到在其上运行 hbase 的 Amazon 的 EMR 框架。

目前的实现基于纯 Apache hadoop 和 hbase 发行版。我正在尝试验证即使我们迁移到亚马逊的 EMR 也不需要更改代码。

请分享你的想法。

hadoop hbase amazon-emr

2012-09-25T10:30:52.577

0 投票

2 回答

426 浏览

perl - 弹性 MapReduce 引导程序安装 Perl 模块

我正在尝试编写一个 Perl 脚本，该脚本将在 Elastic MapReduce 的 Streaming 功能下作为映射器运行。我正在尝试使用 Net::Amazon::S3 （或据说更便携的 Amazon::S3）来做一些额外的文件 I/O 从和到 S3。该模块不在默认 AMI 上，因此我尝试在引导操作脚本中使用 CPAN 来安装它。引导脚本当前包含：

perl -MCPAN -e 'CPAN::Shell->install(Amazon::S3)'

但是，15 分钟后引导操作仍未完成，所以我认为它正在等待某种输入。我环顾四周，但没有找到任何加载 Perl 模块的引导操作脚本示例。有人可以建议我吗？

提前致谢...

perl hadoop-streaming amazon-emr

2012-10-09T22:09:36.563

0 投票

0 回答

459 浏览

java - EMR 上的 k-means 异常：java.lang.IllegalArgumentException：此文件系统对象不支持访问请求路径

我正在尝试从 mahout 在 EMR 上运行 k-means 算法。输入矢量化数据位于 S3。
我的命令：

我有例外：

我的命令有什么问题？

java hadoop mahout amazon-emr emr

2012-10-10T14:45:15.527

0 投票

1 回答

1219 浏览

amazon-web-services - 使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库

我必须使用名为 weka 的第三方库来完成一些数据挖掘任务。但我不确定如何在亚马逊弹性 mapreduce 服务中包含所需的 jar 文件。

有没有人有处理这个案子的经验？

amazon-web-services hadoop mapreduce amazon-emr

2012-10-24T23:02:40.480

1 2 3 4 5 6 7 8 9 10

问题标签 [amazon-emr]

Reference