问题标签 [amazon-emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - mrjob:是否可以在 VPC 中运行作业流程?
我正在使用 mrjob 在 EMR 上运行一些 MapReduce 任务,并且我想在 VPC 中运行作业流。我查看了 mrjob 和 boto 的文档,似乎没有一个支持这一点。
有谁知道这是否可行?
hadoop - hadoop 从 hdfs 复制到 S3
我已成功完成 Amazon EMR 上的 mahout 矢量化作业(使用Elastic MapReduce 上的 Mahout作为参考)。现在我想将结果从 HDFS 复制到 S3(以在未来的集群中使用它)。
失败的。发现这个建议:使用 s3distcp也试过了:
在这两种情况下,我都有相同的错误:java.net.UnknownHostException: unknown host: my.bucket
下面是第二种情况的完整错误输出。
java - 为什么身份映射器会内存不足?
在一个 reduce-only Hadoop 作业中,输入文件由身份映射器处理,并在不修改的情况下发送到 reducer。在我的一些工作中,我很惊讶地看到该工作在映射阶段失败,出现“内存不足错误”和“超出 GC 开销限制”。
据我了解,身份映射器上的内存泄漏是不可能的。这种错误的原因是什么?
amazon-s3 - DynamoDB S3 导入
从S3 导入到 DynamoDB时,这是否计入预置的写入吞吐量?
我有一个只能读取的服务,除了来自 S3 中的多 GB 文件的批量更新。我们不想为整个月的预置写入付费,并且考虑到 AWS 政策只允许预置速率一次翻倍,从 0 写入扩展到数百万可能需要一段时间。
hadoop - 在亚马逊 EMR 上运行 HBase 时,为什么 /tmp 文件夹与实际数据相比很大?
我们在亚马逊 EMR 上有一个默认配置的 hadoop+hbase 集群,因此mapred.child.tmp
和都hbase.tmp.dir
指向/tmp
. 我们的集群已经运行了一段时间,现在/tmp
是 500Gb,而实际/hbase
数据是 70Gb。
这种差异似乎太大了,我们应该定期删除一些/tmp
数据吗?
hadoop - 使用 piggybank 和 AvroStorage 解决 EMR 问题
我在 EMR 上运行一个猪脚本,它读取以 Avro 格式存储的数据。它一直在本地运行,但为了让脚本的其他部分在 EMR 上运行,我不得不将我使用的 piggybank.jar 恢复为 0.9.2 而不是 0.10.0。进行该更改后,AvroStorage 静默读取任何数据失败,仅返回零记录。日志中没有提到任何内容。这是脚本:
同样,如果 piggybank.jar 是 0.10.0 版,它可以工作。如果是 0.9.2 版,则不是。我应该使用任何其他库的不同版本吗?我尝试使用 avro-1.5.3.jar,但也没有用。
另一个注意事项:如果我describe a;
正确地输出模式。
hadoop - 从亚马逊 hbase 读取数据
谁能建议我是否可以使用 org.apache.hadoop.conf.Configuration 和 org.apache.hadoop.hbase.client.HTablePool 从亚马逊 hbase 读取数据。
我们正在迁移到在其上运行 hbase 的 Amazon 的 EMR 框架。
目前的实现基于纯 Apache hadoop 和 hbase 发行版。我正在尝试验证即使我们迁移到亚马逊的 EMR 也不需要更改代码。
请分享你的想法。
perl - 弹性 MapReduce 引导程序安装 Perl 模块
我正在尝试编写一个 Perl 脚本,该脚本将在 Elastic MapReduce 的 Streaming 功能下作为映射器运行。我正在尝试使用 Net::Amazon::S3 (或据说更便携的 Amazon::S3)来做一些额外的文件 I/O 从和到 S3。该模块不在默认 AMI 上,因此我尝试在引导操作脚本中使用 CPAN 来安装它。引导脚本当前包含:
perl -MCPAN -e 'CPAN::Shell->install(Amazon::S3)'
但是,15 分钟后引导操作仍未完成,所以我认为它正在等待某种输入。我环顾四周,但没有找到任何加载 Perl 模块的引导操作脚本示例。有人可以建议我吗?
提前致谢...
java - EMR 上的 k-means 异常:java.lang.IllegalArgumentException:此文件系统对象不支持访问请求路径
我正在尝试从 mahout 在 EMR 上运行 k-means 算法。输入矢量化数据位于 S3。
我的命令:
我有例外:
我的命令有什么问题?
amazon-web-services - 使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库
我必须使用名为 weka 的第三方库来完成一些数据挖掘任务。但我不确定如何在亚马逊弹性 mapreduce 服务中包含所需的 jar 文件。
有没有人有处理这个案子的经验?