问题标签 [emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - EMR - Hive 和 Java 结合在一起
我正在使用 Amazon Elastic-Map-Reduce。是否可以运行使用 java 代码(使用转换功能)的 HIVE 查询?
当我创建一个新的工作流程时,我需要在自定义 jar 和配置单元程序之间进行选择,而我需要两者...
提前谢谢!
jar - 在 EMR 上运行 mahout RecommenderJob
我正在尝试在亚马逊 EMR 上运行 RecommenderJob。我有一个名为 SmartJukebox.jar(不可运行)的 jar,它包含一个 main.TrackRecommander 类(仅此而已)。
我用 jar 创建了一个工作流程:
s3n://smartjukebox/SmartJukebox.jar
和参数:
main.TrackRecommander --input s3n://smartjukebox/ratings.csv --output s3n://smartjukebox/output --usersFile s3n://smartjukebox/user.txt。
TrackRecommander 类使用 RecommenderJob 类。
我运行作业流程,我在错误日志中得到了这个 -
在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native方法)在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) 在 java.lang.reflect.Method.invoke(Method.java:597) 在org.apache.hadoop.util.RunJar.main(RunJar.java:156) 原因:java.lang.ClassNotFoundException:org.apache.mahout.cf.taste.hadoop.item.RecommenderJob at java.net.URLClassLoader$1。在 java.net.URLClassLoader.findClass(URLClassLoader.java:190) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:306) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:247) ... 还有 6 个
现在我看到 JVM 找不到 RecommenderJob 并且我没有将 RecommenderJob 放入我的 jar 中。我以为 EMR 会内置 mahout 罐子,但我找不到任何相关信息。
这里的解决方案是什么?
谢谢。
python - 在 EMR 上的 MRJob 中导入模块
简单的问题:我有一个模块 headers.py,它定义了我在主 MRJob 脚本中需要的几个变量。我应该能够用
然后在我的 MRJob 脚本(MRMyJob)中,以下应该可以工作:
正确的?从 mrjob --help 页面:“--file=UPLOAD_FILES 将文件复制到此脚本的工作目录。您可以多次使用 --file。”
当我尝试导入它时,我仍然得到“没有名为标题的模块”。
amazon-s3 - 使用 EMR 跨不同账户复制 dynamoDB 表
我在一个 DynamoDB 账户中有很多信息表,我想转移到另一个账户。我看到您可以使用 EMR 在一个帐户中复制表,如下所示:http ://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html ,但是有没有办法跨不同的帐户进行转移?
hadoop - 亚马逊 EMR JSON
我正在使用 Amazon EMR Hadoop Hive 进行大数据处理。我的日志文件中的当前数据为 CSV 格式。为了从日志文件中创建表,我编写了正则表达式来解析数据并存储到外部表的不同列中。我知道 SerDe 可用于读取 JSON 格式的数据,这意味着每个日志文件行都可以作为 JSON 对象。如果我的日志文件是 JSON 格式比较 CSV 格式,是否有任何 Hadoop 性能优势。
amazon-web-services - 将压缩(lzo)数据从 s3 导入 hive
我将 DynamoDB 表导出到 s3 作为备份方式(通过 EMR)。导出时,我将数据存储为 lzo 压缩文件。我的配置单元查询如下,但基本上我遵循了http://docs.amazonwebservices.com/amazondynamodb/latest/developerguide/EMR_Hive_Commands.html上的“使用数据压缩将 Amazon DynamoDB 表导出到 Amazon S3 存储桶”
我现在想做相反的事情 - 拿我的 LZO 文件并将它们放回蜂巢表中。你怎么做到这一点?我期待看到一些用于输入的配置单元配置属性,但没有。我用谷歌搜索并找到了一些提示,但没有确定的,也没有任何有效的。
s3 中的文件格式为:s3://[mybucket]/backup/year=2012/month=08/day=01/000000.lzo
这是我进行导出的 HQL:
任何想法如何从 s3 中获取它,解压缩并进入配置单元表?
amazon-s3 - EMR 如何将文件合二为一?
我已将大二进制文件拆分为 (2Gb) 块并将其上传到 Amazon S3。现在我想将它加入一个文件并使用我的自定义处理
我试过跑
但由于 -cat 将数据输出到我的本地终端而失败 - 它无法远程工作......
我怎么能做到这一点?
PS 我尝试将 cat 作为流式 MR 作业运行:
这项工作已成功完成。但。我在 dir/in 中有 3 个文件部分 - 现在我在 /dir/out 中有 6 个部分
和文件 _SUCCESS ofcource 这不是我的输出的一部分......
所以。如何加入拆分前的文件?
hive - 为什么增加实例数不会提高 Hive 查询速度
我在 Amazon 的 Elastic MapReduce 中使用 Hive 创建了一个表,将数据导入其中并对其进行分区。现在我运行一个查询来计算表字段之一中最常见的单词。
当我有 1 个主实例和 2 个核心实例并且计算需要 180 秒时,我运行该查询。然后我将它重新配置为拥有 1 个主控和 10 个核心,它也需要 180 秒。为什么不更快?
在 2 核和 10 核上运行时,我的输出几乎相同:
php - Amazon AWS PHP SDK - 集群无法启动 - 给定的 SSH 密钥名称无效
我正在尝试创建一个 PHP 页面来启动集群并将作业添加到工作流中。
集群启动,我可以看到作业流 ID。但它在启动后立即开始关闭。当我执行elastic-mapreduce --list
时,该集群的状态为 Failed。
任何已知问题或我做错的任何地方?可用性区域是否可能导致问题?
我从 AWS 控制台检查,它给出了这个错误 -The given SSH key name was invalid
我检查了,我在 config.inc.php 中提供的访问密钥和密钥是正确的并且可以工作。
问候, Kartikeya Sinha
hadoop - 让 Amazon EMR 使用 S3 进行输入和输出
如何让 Amazon EMR (0.20.205 MapR) 使用 S3 存储桶进行输入和输出?
我尝试将以下内容添加到核心配置 xml 文件中(通过引导操作):
但我总是得到类似的东西:
引起:java.io.IOException:无法解析路径:s3n://some_out_bucket/out at com.mapr.fs.MapRFileSystem.lookupClient(MapRFileSystem.java:219) at com.mapr.fs.MapRFileSystem.delete(MapRFileSystem .java:385) 在 cc.mrlda.ParseCorpus.run(ParseCorpus.java:192) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 cc.mrlda.ParseCorpus.main(ParseCorpus. java:675) ... 10 更多
Hadoop新手在这里。请帮忙!