6

如何在单个 Map Reduce 作业中使用 Scalding(/cascading) 根据键写入多个输出。我当然可以使用.filter所有可能的键,但这是一个可怕的 hack,它会激发许多工作。

4

3 回答 3

6

Scalding 中有TemplatedTsv(从 0.9.0rc16 及以上版本),与 Cascading TemplateTsv 完全相同。

Tsv(args("input"), ('COUNTRY, 'GDP))
.read
.write(TemplatedTsv(args("output"), "%s", 'COUNTRY))
// it will create a directory for each country under "output" path in Hadoop mode.
于 2014-06-25T12:04:42.543 回答
0

使用MultipleOutputFormat并从这些其他 SO 问题中推断使用输出格式编写自定义输出类: 创建像 TextLine 这样的 Scalding Source,将多个文件组合成单个映射器压缩输出 Scalding / Cascading TsvCompressed

于 2014-06-02T12:47:36.800 回答
0

这个关于 Cascading User 组的建议建议使用Cascading TemplateTap。不知道如何将其连接到烫伤。

于 2014-06-02T18:27:29.333 回答