我按照此链接中提供的说明将 Tika 与 Solr 集成
如果我错了,请纠正我,在我看来,它可以索引位于我自己系统上的文档文件(pdf、doc、audio)(给定存储这些文件的目录路径),但无法索引这些文件,位于互联网上,当我使用 nutch 抓取一些网站时。
我可以使用 Tika 索引位于 Web 上的文档文件(pdf、音频、doc、zip)吗?
我按照此链接中提供的说明将 Tika 与 Solr 集成
如果我错了,请纠正我,在我看来,它可以索引位于我自己系统上的文档文件(pdf、doc、audio)(给定存储这些文件的目录路径),但无法索引这些文件,位于互联网上,当我使用 nutch 抓取一些网站时。
我可以使用 Tika 索引位于 Web 上的文档文件(pdf、音频、doc、zip)吗?
基本上有两种方法可以在 Solr 中索引二进制文档,都使用 Tika:
在这两种情况下,您都需要在客户端拥有二进制文档。在爬行时,nutch 应该能够下载二进制文件,使用 Tika 从中生成文本内容,然后像通常处理文本文档一样在 Solr 中索引数据。Nutch 已经使用Tika,我想这只是配置要索引的文档类型的问题,通过从以下行中删除要索引的文件扩展名来更改 regex-urlfilter.txt nutch 配置文件。
# skip some suffixes
-\.(swf|SWF|doc|DOC|mp3|MP3|WMV|wmv|txt|TXT|rtf|RTF|avi|AVI|m3u|M3U|flv|FLV|WAV|wav|mp4|MP4|avi|AVI|rss|RSS|xml|XML|pdf|PDF|js|JS|gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$
这样你就可以使用我提到的第一个选项。然后您需要在您的 nutch-site.xml 中启用 nutch 上的 Tika 插件,从 nutch 邮件列表中查看此讨论。
这理论上应该有效,如果没有,请告诉我。