0

我有两个电子邮件测试文件:

  1. 在 Mac Mail 中使用“另存为”创建的文件(这会创建一个 .txt 文件)
  2. 通过将电子邮件从 Mac Mail 拖到桌面创建的文件(这将创建一个 .eml 文件)

如果我用

curl -T filename http://localhost:9998/detect/stream

我得到两个文件的响应“message/rfc822”。

如果我跑

curl -T filename http://localhost:9998/meta

我得到了元数据,但在 (1) 的情况下,我没有得到提取的日期,而在 (2) 的情况下,我得到了。

当然,我知道 .eml 文件包含完整的原始标头,而 .txt 文件仅包含一个非常简短的标头。然而,即使是缩写的标题也包含一个“日期”字段,所以我认为 Tika 应该提取它。这是一个错误还是故意的?在后一种情况下,我能做些什么来让 Tika 提取情况(1)中的日期吗?

我正在运行 Tika-server 1.14。

4

1 回答 1

1

感谢您打开TIKA-1970;底层 James 的 mime4j 库无法解析格式为“2016 年 5 月 16 日 09:30:32 GMT+1”的日期。我们将添加额外的日期解析代码来捕获 mime4j 在 Tika 级别无法识别的那些日期格式。

再次感谢您注意到并在我们的 JIRA 上提出问题。

于 2016-05-17T13:37:14.767 回答