我有这样的记录:
Name: Alan Kay
Email: Alan.Kay@url.com
Date: 09-09-2013
Name: Marvin Minsky
Email: Marvin.Minsky@url.com
City: Boston, MA
Date: 09-10-2013
Name: Alan Turing
City: New York City, NY
Date: 09-10-2013
它们是多行的,但并不总是具有相同的行数,并且它们通常由换行符分隔。我如何将其转换为下面的输出?
Alan Kay|Alan.Kay@url.com||09-09-2013
Marvin Minsky|Marvin.Minsky@url.com|Boston,MA|09-10-2013
Alan Turing||New York City, NY|09-10-2013
Apache Pig 将每一行视为一条记录,因此它不适合此任务。我知道这篇关于处理多行记录的博客文章,但如果有更简单的解决方案,我不想深入研究 Java。有没有办法使用 Hadoop Streaming(或类似mrjob的框架)来解决这个问题?