1

我按照此链接中提供的说明将 Tika 与 Solr 集成

如果我错了,请纠正我,在我看来,它可以索引位于我自己系统上的文档文件(pdf、doc、audio)(给定存储这些文件的目录路径),但无法索引这些文件,位于互联网上,当我使用 nutch 抓取一些网站时。

我可以使用 Tika 索引位于 Web 上的文档文件(pdf、音频、doc、zip)吗?

4

1 回答 1

3

基本上有两种方法可以在 Solr 中索引二进制文档,都使用 Tika:

  1. 在客户端使用 Tika 从二进制文件中提取信息,然后在 Solr 中手动索引提取的文本
  2. 使用ExtractingRequestHandler,您可以通过它将二进制文件上传到 Solr 服务器,以便 Solr 可以为您完成工作。这样客户端就不需要 tika。

在这两种情况下,您都需要在客户端拥有二进制文档。在爬行时,nutch 应该能够下载二进制文件,使用 Tika 从中生成文本内容,然后像通常处理文本文档一样在 Solr 中索引数据。Nutch 已经使用Tika,我想这只是配置要索引的文档类型的问题,通过从以下行中删除要索引的文件扩展名来更改 regex-urlfilter.txt nutch 配置文件。

# skip some suffixes
-\.(swf|SWF|doc|DOC|mp3|MP3|WMV|wmv|txt|TXT|rtf|RTF|avi|AVI|m3u|M3U|flv|FLV|WAV|wav|mp4|MP4|avi|AVI|rss|RSS|xml|XML|pdf|PDF|js|JS|gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

这样你就可以使用我提到的第一个选项。然后您需要在您的 nutch-site.xml 中启用 nutch 上的 Tika 插件,从 nutch 邮件列表中查看此讨论。

这理论上应该有效,如果没有,请告诉我。

于 2012-08-01T11:22:27.493 回答