我是 MR 和 Hadoop 方面的新手。我写了一个 MR 来查找 csv 文件中的缺失,它工作正常。现在我有一个用例,我需要解析一个 csv 文件并使用相关类别对其进行编码。
例如:"11,abc,xyz,51,61,78","11,adc,ryz,41,71,38",......
现在必须将其替换为 "1,abc,xyz,5,6,7","1,adc,ryz,4,7,3",......
在这里,我正在做一个 10 的 mod,但会有不同的 mod 情况。数据大小以 GB 为单位。
我想知道如何就地替换输入内容。这可以通过 MR 实现吗?
基本上我在任何地方都没有看到任何文件处理或基于 hadoop 编写的示例。
此时我不想使用 HBase 或其他数据库工具。