0

正如 Amazon EMR 的“开发人员指南”中所引用的,输入目录中的文件应格式化为纯文本。这是否意味着我无法上传一些二进制文件或 .png 文件并通过 python 脚本解析它们?

4

1 回答 1

0

可能不会。参见例如:https ://groups.google.com/a/cloudera.org/forum/?fromgroups=#!topic/cdh-user/AUUZ0DKiJGw

您可以做的是让输入数据成为文件名本身(在 S3 或 HDFS 中)。Hadoop 流脚本将获取文件名作为输入,它可以根据需要打开和处理。

于 2013-04-25T08:21:46.860 回答