问题简介:我希望 Sitecore 使用 Solr 的内置功能(由 Tika 提供)索引 PDF 的内容。我不确定如何配置 Sitecore 的索引以在 Solr(Tika) 中使用此功能。(我想我需要编写一个自定义索引器。)
我正在使用 Sitecore 7(7.1 Update 1)并希望从 PDF(或其他富媒体类型)中索引内容。我想为搜索目的索引这些数据。
我已安装 Solr (4.6.1) 并使用 Sitecore 7。当我为我的站点编制索引时,它会将所有文档保存到正确的 Solr 核心,并且我可以成功检索这些文档以进行显示。
使用curl
,我可以将 PDF 发送到我的 Solr 实例并对其进行索引。
curl "http://localhost:8983/solr/update/extract?literal._id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@sample.pdf"
这行得通,我可以在我的 Sitecore Web 项目中读取此内容并将其显示在视图中,因此我知道我可以访问此数据。但是,我希望将数据附加到我在 Sitecore 中上传的项目中。
当我将 PDF 上传到 Sitecore 媒体库并发布项目时,或者至少在我重新索引站点时,我希望发生这样的事情。
我目前正在浏览以下教程以了解有关编写自定义索引的一些内容(这是第 1 部分的链接): http ://www.sitecore.net/Community/Technical-Blogs/Getting-to-Know-Sitecore /Posts/2013/04/Sitecore-7-Search-Provider-Part-1-Manually-Triggered-Indexing.aspx
谢谢你的耐心。