3

我想知道是否可以配置 Sitecore 的 Lucene 搜索引擎来索引 PDF 或 Word 文档?我查看了本文档中的 Sitecore 支持站点(http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf),但它提到了创建一个文件爬虫类,这向我建议这只能通过编写自定义代码来实现。如果我确实需要编写自定义代码来执行此操作,我是否还需要一些 API 才能从 PDF 文档中提取文本内容?

4

1 回答 1

3

我最近不得不对我的一个项目做类似的事情。查看如何使用 Lucene.NET 索引 Word 2003、2007 和 2010 文档

我最终创建了一个自定义索引器,用于处理 MS Office 文档(XP、2003、2007 和 2010 格式)和 PDF 文档:

  • 为了索引 XP-2003 MS Office 文档,您可以使用IFilter操作系统内置的 s(假设您使用的是 Windows Server 2003 或更新版本)
  • 要为 2007-2010 MS Office 文档编制索引,您需要安装Microsoft Office 2010 Filter Packs
  • 对于 PDF 文档的索引,我强烈推荐使用Foxit PDF IFilter。它不是免费的,但比 Adob​​e PDF IFilter 做得更好。

注意:不要在 Adob​​e PDF IFilter 上浪费时间:它无法读取有效的 PDF 文件,而且速度慢。Foxit IFilter 旨在利用多核 CPU 并在大型文档上表现得更好。

于 2011-07-05T16:57:38.270 回答