0

我正在处理文件中的邮件数据..(data source:infochimps)

Message-ID: <33025919.1075857594206.JavaMail.evans@thyme> Date: Wed, 13 Dec 2000 13:09:00 -0800 (PST) From: john.arnold@enron.com To: slafontaine@globalp.com Subject: re:spreads Mime-Version: 1.0 Content-Type: text/plain; charset=us-ascii Content-Transfer-Encoding: 7bit X-From: John Arnold X-To: slafontaine@globalp.com @ ENRON X-cc: X-bcc: X-Folder: \John_Arnold_Dec2000\Notes Folders\'sent mail X-Origin: Arnold-J X-FileName: Jarnold.nsf

看到很多多头在夏季卖掉了前面的长度以减轻利润/绝对头寸限制/var。当这些家伙起飞前线,他们也在买回夏天。埃尔帕索明年冬天的大买家今天起飞价差。这当然是为什么价差在上涨过程中如此强劲以及现在如此之大的原因。实际上,现在唯一剩下内置任何风险溢价的是 h/j。它的交易量相当于 180 美元,比今天早上下降了 40 多美元。当然,如果我们正在进入看跌时期

......]

我将上述数据加载为:-

A = load '/root/test/enron_mail/maildir/*/*/*' using PigStorage(':') as (f1:chararray,f2:chararray);

但是对于消息正文,我得到了单独的元组,因为消息正文包含新行..

如何将最后一行合并为一个?我希望以下部分在单个元组中为:

看到很多多头在夏季卖掉了前面的长度以减轻利润/绝对头寸限制/var。当这些家伙起飞前线,他们也在买回夏天。埃尔帕索明年冬天的大买家今天起飞价差。这当然是为什么价差在上涨过程中如此强劲以及现在如此之大的原因。实际上,现在唯一剩下内置任何风险溢价的是 h/j。它的交易量相当于 180 美元,比今天早上下降了 40 多美元。当然,如果我们正在进入看跌时期

4

0 回答 0