如何在单个 Map Reduce 作业中使用 Scalding(/cascading) 根据键写入多个输出。我当然可以使用.filter
所有可能的键,但这是一个可怕的 hack,它会激发许多工作。
问问题
3625 次
3 回答
6
Scalding 中有TemplatedTsv(从 0.9.0rc16 及以上版本),与 Cascading TemplateTsv 完全相同。
Tsv(args("input"), ('COUNTRY, 'GDP))
.read
.write(TemplatedTsv(args("output"), "%s", 'COUNTRY))
// it will create a directory for each country under "output" path in Hadoop mode.
于 2014-06-25T12:04:42.543 回答
0
使用MultipleOutputFormat并从这些其他 SO 问题中推断使用输出格式编写自定义输出类: 创建像 TextLine 这样的 Scalding Source,将多个文件组合成单个映射器, 压缩输出 Scalding / Cascading TsvCompressed
于 2014-06-02T12:47:36.800 回答
0
这个关于 Cascading User 组的建议建议使用Cascading TemplateTap。不知道如何将其连接到烫伤。
于 2014-06-02T18:27:29.333 回答