问题标签 [emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-ec2 - Hive 作业被终止,查询 execute() 仍然挂起
我正在使用 hive-jdbc-0.7.1-cdh3u5.jar。我在 EMR 上运行了一些内存密集型查询,这些查询偶尔会失败。当我查看作业跟踪器时,我看到查询已被终止,并且我看到以下错误:
java.io.IOException:任务进程退出,非零状态为 137
但是,Hive JDBC 驱动程序 execute() 调用没有检测到这一点,而是挂起。没有发现异常。有任何想法吗?谢谢:
hadoop - 使用或不使用 Hive 在 Amazon EMR 中处理日志
我的 EMR 集群中有很多日志文件,路径为“hdfs:///logs”。每个日志条目是多行,但有一个开始和结束标记来区分两个条目。现在,
- 并非日志文件中的所有条目都有用
- 有用的条目需要转换,输出需要存储在输出文件中,以便我以后可以有效地查询(使用 Hive)输出日志。
我有一个 python 脚本,它可以简单地获取一个日志文件并执行 a 部分。和 b。上面提到了,但我没有写任何映射器或减速器。
Hive 负责 Mappers 和 Reducers 的查询。请告诉我是否以及如何使用 python 脚本在所有日志上运行它并将输出保存在 'hdfs:///outputlogs' 中?
我是 Map Reduce 的新手,看过一些字数的例子,但它们都有一个输入文件。在哪里可以找到具有多个输入文件的示例?
mapreduce - 安排 Amazon 的 Elastic MapReduce 作业的工具/方法
我使用 EMR 创建新实例并处理作业,然后关闭实例。
我的要求是定期安排工作。一种简单的实现方式是使用石英来触发 EMR 作业。但从长远来看,我有兴趣使用开箱即用的 mapreduce 调度解决方案。我的问题是 EMR 或 AWS-SDK 是否提供任何开箱即用的调度功能,我可以使用它来满足我的要求吗?我可以看到 Auto Scaling 中有调度,但我想改为调度 EMR 作业流。
amazon-ec2 - EMR - 使用 Spot 实例的杠杆作用
我知道我们可以竞标现货实例并以低于常规实例的价格获得它们,但是对于现货实例,您的实例存在被收回的风险。
我想知道有什么方法可以确保只有在我们的工作完成后才将它们带走?
hbase - 用 Pig 连接 Hbase 表
我正在尝试在 Amazon EMR 上使用 Pig 来加入两个 HBase 表。
在我运行上面的代码后,它会抛出以下异常:
有什么想法是错误的以及如何解决它?
hadoop - 从 Hadoop 0.20.2 迁移到 0.20.205 以及从 0.20.2 迁移到 1.0.1 需要付出什么努力?
我希望将我的 EMR 实现从旧版本迁移到最新版本,因为我主要面临很多问题。
我当前的实现使用 Hadoop 0.20.2。
我想了解从 0.20.2 迁移到 - 在代码更改方面需要付出多少努力 -
- 0.20.205
- 1.0.1
API 是否非常不同并且需要大量重新编码?任何基本的想法都会非常有帮助。
hadoop - MapReduce 如何从多个输入文件中读取数据?
我正在开发一个代码来读取数据并将其写入HDFS
using mapreduce
. 但是,当我有多个文件时,我不明白它是如何处理的。映射器的输入路径是目录的名称,从输出中可以明显看出
那么它如何处理目录中的文件呢?
hadoop - 将1亿个文件写入s3
我的主要目的是根据每条记录的 id 将记录拆分成文件,现在有超过 150 亿条记录,肯定会增加。我需要使用 Amazon EMR 的可扩展解决方案。我已经为具有大约 9 亿条记录的较小数据集完成了这项工作。
输入文件为 csv 格式,其中一个字段需要是输出中的文件名。所以说有以下输入记录:
因此,现在应该有 2 个文件作为输出,一个名为awesomeID1.dat
,另一个为awesomeID2.dat
,每个文件都有与各自 ID 相关的记录。
输入大小:每月总计 600 GB(gzippef 文件的大小),每个文件约为 2 3 GB。我需要一次处理大约 6 个月或更长时间。所以总数据大小为 6*600 GB(压缩)。
以前我在根据 id 值写入 s3Too many open files
时遇到错误。FileByKeyTextOutputFormat extends MultipleTextOutputFormat<Text, Text>
然后正如我在这里解释的那样,我没有将每个文件都直接写入 s3,而是将它们写入本地并分批 1024 个文件移动到 s3。
但是现在随着数据量的增加,我收到了来自 s3 的以下消息,然后它跳过了写入有问题的文件:"Please reduce your request rate."
此外,我必须在具有 200 台 m1.xlarge 机器的集群上运行,这需要大约 2 小时,因此它也很贵!
我想要一个可扩展的解决方案,如果将来数据量再次增加,它不会失败。
有什么建议么?
fonts - 如何处理 EMR_FORCEUFIMAPPING 和 EMR_GDICOMMENT?
我正在将 EMF 转换为 PDF,但我进入了一个有问题的领域。我有一些 EMF 假脱机文件,其中包含一些未记录的 EMR 结构,例如 EMR_FORCEUFIMAPPING
和EMR_GDICOMMENT
.
MSDN 对这些记录的描述并不那么详细,因此搜索这些关键字并不能帮助我找到答案。据我所知,这些记录可以帮助我将字体嵌入到我生成的 PDF 中。有没有人在这个领域有经验?你能推荐我一些书籍或教程或源代码存储库或一些示例吗?
如何处理这些记录?
谢谢你。
python - EMR 长时间无输出
我有一个使用 MRJob 库用 python 编写的 MapReduce 作业。在我的本地机器上完成这项工作大约需要 30 分钟。在 EMR 上运行相同的作业时,我很长时间没有看到任何输出(~=1 小时)。我不得不停止工作。此外,在我的本地机器上花费很少时间的作业在 EMR 上运行得很好。我尝试增加超时,但任务跟踪器在超时后杀死了减速器。我收到以下错误消息
EMR 为我的工作创建了 4 个映射器和一个减速器。此外,我编写的 reducer 代码需要对大约 11-12 MB 的整个数据集进行大量循环。我希望这项工作与我的本地机器在大约同一时间完成,但它没有发生。有什么解决办法??`