我正在寻找一种配置 Nutch 以抓取网络的方法,但仅将某些类型的文件(具体为 XML)索引到 Solr 中。我很确定自定义插件可以完成这项工作,可能基于 index-more 代码,但我宁愿不这样做,除非我必须这样做。我也确信我可以将所有内容都吸入 Solr,然后使用 Solr 的 API 删除不需要的内容,但这有点 hacky。有没有办法将 Nutch 配置为仅索引 Solr 中的某些文件类型?
问问题
630 次
2 回答
0
您可以根据扩展名过滤文件类型。您可以在regex-urlfilter.txt
中指定要包含或排除的扩展名
例如排除(-):-
#skip image 和其他我们无法解析的后缀 29 # 使用 urlfilter-suffix 插件进行更广泛的覆盖 -.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit| SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG| bmp|BMP|js|JS)$
使用 + 您可以指定包含列表。
于 2012-11-30T17:32:56.987 回答
0
在 nutch 中,您可以为 url 定义过滤器。按文件扩展名过滤呢?
于 2012-11-30T15:02:18.693 回答