我正在尝试使用 Amazon 的 Elastic Map Reduce 来处理 Google ngrams 数据集。在http://aws.amazon.com/datasets/8172056142375670有一个公共数据集,我想使用 Hadoop 流。
对于输入文件,它说“我们将数据集存储在 Amazon S3 中的单个对象中。该文件是具有块级 LZO 压缩的序列文件格式。序列文件键是存储为 LongWritable 的数据集的行号,并且value 是存储为 TextWritable 的原始数据。”
为了使用 Hadoop Streaming 处理这些输入文件,我需要做什么?
我尝试在我的论点中添加一个额外的“-inputformat SequenceFileAsTextInputFormat”,但这似乎不起作用——我的工作由于某些未指明的原因而不断失败。我还缺少其他论点吗?
我尝试使用一个非常简单的身份作为我的映射器和减速器
#!/usr/bin/env ruby
STDIN.each do |line|
puts line
end
但这不起作用。