3

我正在使用 Solr 3.6 来索引许多不同类型的文档。我有几个字段定义了所有文档的公共信息,其中一个是“日期”(理想情况下是最后修改日期,只是表明文档的最新程度。)

<field name="date" type="date" indexed="true" stored="true" required="true" />

尝试索引 .docx 和 .pdf 等富文本文档时出现了我的问题。我想使用从 ExtractingRequestHandler 获得的元数据来填写日期字段,但是存储我想要的日期信息的字段的名称对于每个文件都不同。有时我想要的字段是“日期”,有时是“last_modified”或“last_save_date”。我试图使用“last_modified”在处理程序中提供日期:

<str name="fmap.last_modified">date</str>

..但这导致日期是多值的(因为有“日期”元数据)或未定义的问题(因为不存在“last_modified”)。我研究了使用条件 copyFields 来尝试从这些字段中的至少一个中提取数据,但这似乎很复杂(即扩展更新处理程序)并且还需要我知道可能包含此日期信息的每个可能字段的名称。

有什么方法可以可靠地从我处理的每个富文本文档中提取日期?

4

0 回答 0