我在 Ubuntu 10.04(通过 apt-get solr-tomcat 安装)上运行 Solr 1.4,它似乎工作正常。我很难找到有关如何索引文档的任何连贯信息。我是 SOLR 的新手,所以请多多包涵!我有一个文件夹(/mnt/folder),它是一个已安装的 Windows 共享,其中包含我想要索引的 Word 和 PDF 文件,让 SOLR 索引整个文件夹的最简单方法是什么?
SOLR 的文档很差,它不可能找到任何像样的教程来完成它,所以非常感谢任何帮助!
小号
我在 Ubuntu 10.04(通过 apt-get solr-tomcat 安装)上运行 Solr 1.4,它似乎工作正常。我很难找到有关如何索引文档的任何连贯信息。我是 SOLR 的新手,所以请多多包涵!我有一个文件夹(/mnt/folder),它是一个已安装的 Windows 共享,其中包含我想要索引的 Word 和 PDF 文件,让 SOLR 索引整个文件夹的最简单方法是什么?
SOLR 的文档很差,它不可能找到任何像样的教程来完成它,所以非常感谢任何帮助!
小号
看看Solr wiki,这是一个非常详尽的文档。
特别是ExtractingRequestHandler,它允许您索引二进制文件,如 Word 和 PDF 文档。这是该主题的介绍。
如果 wiki 对您来说还不够,还有一本关于 Solr 的好书。
使用 Solr 处理丰富的文档:http ://wiki.apache.org/solr/UpdateRichDocuments
我在核心文档中发现了同样的挑战,但我从 LucidImagination 看到了这个非常有用的参考指南,它有助于澄清关于 SOLR 的很多事情:
http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide