我有两个电子邮件测试文件:
- 在 Mac Mail 中使用“另存为”创建的文件(这会创建一个 .txt 文件)
- 通过将电子邮件从 Mac Mail 拖到桌面创建的文件(这将创建一个 .eml 文件)
如果我用
curl -T filename http://localhost:9998/detect/stream
我得到两个文件的响应“message/rfc822”。
如果我跑
curl -T filename http://localhost:9998/meta
我得到了元数据,但在 (1) 的情况下,我没有得到提取的日期,而在 (2) 的情况下,我得到了。
当然,我知道 .eml 文件包含完整的原始标头,而 .txt 文件仅包含一个非常简短的标头。然而,即使是缩写的标题也包含一个“日期”字段,所以我认为 Tika 应该提取它。这是一个错误还是故意的?在后一种情况下,我能做些什么来让 Tika 提取情况(1)中的日期吗?
我正在运行 Tika-server 1.14。