3

我对 Solr 的奇妙世界比较陌生,并且有以下问题。在提取文档结构并将其传递到 Solr 进行索引方面,处理文档的最佳方法是什么。

我希望能够从 Word 文档、PDF、电子表格、HTML 页面等中提取文本。事实上,几乎任何包含文本的文档。

我查看了 Windows 过滤器,乍一看,它们似乎提供了我需要的功能。

你会这样做吗?

西姆

4

2 回答 2

2

正如 Philip 所说,SolrCell 是索引这些二进制文档类型的标准方法。但是, SolrNet 仍然不支持它,因此您的选择是:

  1. 实施它并将其贡献给项目,或者
  2. 解决它,创建自己的 http 请求以发送到 Solr,避免 SolrNet 用于该特定功能。

此外,由于性能问题,一些用户更喜欢 iTextSharp / Aspose 而不是 SolrCell

于 2010-09-22T14:54:08.810 回答
2

您可能想查看Solr Cell项目。我假设您使用的是 c# 客户端 - 但您可能需要使用 java 工具为服务器执行所有内容提取/映射。

Solr Cell 页面有关于如何使用Apache Tika的说明,它可以包装从各种格式(如 Word 或 PDF)中提取文本(和一些元数据)的库。

于 2010-09-22T13:32:50.957 回答