我正在创建一个 PHP 应用程序,它允许用户使用 Solr 来搜索文件以支持搜索。这主要是因为该应用程序需要对 Word Docs 和 PDF 进行内容搜索。该应用程序还使用 MySql 数据库来跟踪文件。
我在想最初索引所有文件(可能大约 20,000 个)的最佳方法是编写一个 PHP 脚本,循环遍历特定目录中的所有文件,将每个文件添加到 Solr 索引并在我的数据库。
问题是文件本身并不包含所有需要索引的数据。使用 Solr Cell 对文件名、内容、作者等进行索引后,我需要应用程序的用户能够添加额外的元数据,例如标签和类别。
我知道如果用户要将此数据添加到 MySql 数据库中,我将无法在不覆盖已编入索引的数据(内容等)的情况下使用额外数据更新 Solr。
所以我的问题是,一旦 Solr 对文件进行了索引,我如何将额外的元数据添加到 Solr Cell 提取器无法从文件本身检索到的索引中?