我们刚刚从 Solr 6.3 升级到 7.5。在不更改架构或配置的情况下,我们尝试索引的几乎每个 pdf 文件都会收到 400 错误。这些是 Solr 6.3 索引没有问题的文件。所有其他类型的复杂文件都像以前一样被索引,只是导致问题的 pdf 文件。
线索 #1:在大约 1900 个 pdf 文件中,只有 2 个被成功处理。我们的大多数 pdf 文件都有主题和标题,但这两个没有。
线索 #2:在控制台日志中,我们看到如下失败消息:RequestHandlerBaseorg.apache.solr.common.SolrException: undefined field: "pdf_docinfo_title"
我在架构中找不到具有该名称的字段。对 pdf_docinfo_title 的谷歌搜索没有发现任何有用的信息。