在解析 MBox 文件的集合时,我遇到了数量惊人的表单的 Date 标头字段:
"Date:" date-time "<" addr-spec ">"
阅读可用的 RFC,我发现没有匹配的语法。有效的形式似乎是:
"Date:" date-time [CFWS]
CFWS 表示注释和折叠空格,如 RFC5322 的第 3.3 节(日期和时间规范)中所述。
阅读正确的邮件日期标题格式,作者分析了 132k 日期标题,但上面的表格从未显示在链接的数据集中。
这是 MBox 人工制品、IMF 属性还是来自邮件代理和/或邮件中继的损坏?
Internet 消息格式自 1980 年代以来一直在发展,它有点混乱,并且已经以多种方式解释,例如 HTTP。我倾向于这是一个特定于供应商的修改,导致日期标题字段格式错误?身份证。
示例 MBox
From ???@???
From: from@mail.com
To: to@mail.com
Date: Sat, 02 Feb 2002 00:55:01 +0000 <name@mail.com>
Subject: Email One
This is email 1.
规格