我对 Solr 的奇妙世界比较陌生,并且有以下问题。在提取文档结构并将其传递到 Solr 进行索引方面,处理文档的最佳方法是什么。
我希望能够从 Word 文档、PDF、电子表格、HTML 页面等中提取文本。事实上,几乎任何包含文本的文档。
我查看了 Windows 过滤器,乍一看,它们似乎提供了我需要的功能。
你会这样做吗?
西姆
正如 Philip 所说,SolrCell 是索引这些二进制文档类型的标准方法。但是, SolrNet 仍然不支持它,因此您的选择是:
您可能想查看Solr Cell项目。我假设您使用的是 c# 客户端 - 但您可能需要使用 java 工具为服务器执行所有内容提取/映射。
Solr Cell 页面有关于如何使用Apache Tika的说明,它可以包装从各种格式(如 Word 或 PDF)中提取文本(和一些元数据)的库。