所以基本上我想解析安然公共电子邮件数据集,但我不确定当时的电子邮件格式和类型。我不熟悉 MIME 类型和其他格式细节。所以我想知道所有电子邮件是否有相同的前几行和最后几行。
我基本上想摆脱除电子邮件正文之外的所有内容。所以我也想知道是否会更容易(不知道我知道什么),使用 C 方法按行解析,或者基本上尝试清理所有电子邮件,只留下我需要的东西。我不太关心空白,但我也不太擅长正则表达式或词法解析,所以如果有人对刷新正则表达式有很好的参考,或者可以分解可能我可能需要的唯一规则,那就太好了。
所以基本上我想解析安然公共电子邮件数据集,但我不确定当时的电子邮件格式和类型。我不熟悉 MIME 类型和其他格式细节。所以我想知道所有电子邮件是否有相同的前几行和最后几行。
我基本上想摆脱除电子邮件正文之外的所有内容。所以我也想知道是否会更容易(不知道我知道什么),使用 C 方法按行解析,或者基本上尝试清理所有电子邮件,只留下我需要的东西。我不太关心空白,但我也不太擅长正则表达式或词法解析,所以如果有人对刷新正则表达式有很好的参考,或者可以分解可能我可能需要的唯一规则,那就太好了。
哇,这是一大堆“......我不知道......”关于你的目标的信息为零。关于我能提供的最佳建议是您阅读 RFC-822。http://www.faqs.org/rfcs/rfc822.html
如果您要从电子邮件中提取任何有意义的信息,您将不得不进行正则表达式解析。我建议 Oreilly 关于正则表达式的书,或阅读http://www.regular-expressions.info/
如果您有更有针对性的问题,那么 SO 可能会为您提供帮助
祝你好运