我有一个 Hadoop SequenceFile,其中键是 IntWritable,值是实现 Writable 的任意 Java 类,并带有一个有趣的 toString() 方法。我很想制作一个两列 Hive 表,其中第一列是作为 int 的键,第二列是作为字符串或 varchar 的值。
我很想以最有品味和最简单的方式做到这一点:我不应该写 200 行代码来说“只需解码然后调用 toString()”。
我目前的解决方案是在将其输入 Hive 之前,做一个额外的 MapReduce 工作,以将其放入我想要的格式,但我发现这很令人反感,原因很明显。
谢谢!