c# - Solr 和 .Net 过滤器

Question

我对 Solr 的奇妙世界比较陌生，并且有以下问题。在提取文档结构并将其传递到 Solr 进行索引方面，处理文档的最佳方法是什么。

我希望能够从 Word 文档、PDF、电子表格、HTML 页面等中提取文本。事实上，几乎任何包含文本的文档。

我查看了 Windows 过滤器，乍一看，它们似乎提供了我需要的功能。

你会这样做吗？

西姆

score 2 · Accepted Answer

正如 Philip 所说，SolrCell 是索引这些二进制文档类型的标准方法。但是， SolrNet 仍然不支持它，因此您的选择是：

score 2 · Accepted Answer

您可能想查看Solr Cell项目。我假设您使用的是 c# 客户端 - 但您可能需要使用 java 工具为服务器执行所有内容提取/映射。

Solr Cell 页面有关于如何使用Apache Tika的说明，它可以包装从各种格式（如 Word 或 PDF）中提取文本（和一些元数据）的库。

2 回答 2