我想抓取一个网站,但只保存那些网页,例如:
A 类:http: //mywebsite.com/page.html
任何其他链接。: http://mywebsite.com/a/b/或http://mywebsite.com/a/ 或任何类似的东西都应该在队列中被 crwaled ,但它们应该只是用来获取更多的 url 喜欢“类型A”但未存储。
如何在 nutch 的 regex-urlfilter.txt 中使用正则表达式。
或在 RegexUrlNormalizer.xml
" 我 认为 整体 爬行 会 是 更好 的 选择 . 但 我 也 希望 在 爬行 的 时候 那样 . 如果 URL 有 锚 链接 类型 A : http://mywebsite.com/page.html . 我 想 存储 那个 链接 A 是通过这个网页获得。所以在我爬取之后,我可以删除页面并只获取A类页面,我有这个A类网页是从哪个特定网页获得的。我可以配置nutch来这样做吗?,如果是,一些提示.我需要修改源代码吗?用nutch写我自己的插件。?”