0

我想抓取一个网站,但只保存那些网页,例如:

A 类:http: //mywebsite.com/page.html

任何其他链接。: http://mywebsite.com/a/b/http://mywebsite.com/a/ 或任何类似的东西都应该在队列中被 crwaled ,但它们应该只是用来获取更多的 url 喜欢“类型A”但未存储。

如何在 nutch 的 regex-urlfilter.txt 中使用正则表达式。

或在 RegexUrlNormalizer.xml

" 我 认为 整体 爬行 会 是 更好 的 选择 . 但 我 也 希望 在 爬行 的 时候 那样 . 如果 URL 有 锚 链接 类型 A : http://mywebsite.com/page.html . 我 想 存储 那个 链接 A 是通过这个网页获得。所以在我爬取之后,我可以删除页面并只获取A类页面,我有这个A类网页是从哪个特定网页获得的。我可以配置nutch来这样做吗?,如果是,一些提示.我需要修改源代码吗?用nutch写我自己的插件。?”

4

2 回答 2

0

我对 nutch 一无所知,但我可以帮助处理正则表达式。根据我上面的评论,现在我很清楚你想要匹配什么。

从你到目前为止的例子中:

".*\.html" will match anything that ends ".html"
于 2012-05-18T12:11:48.623 回答
-1

您希望http://mywebsite.com/a/b/http://mywebsite.com/a/被抓取并仅存储 Type A url,即。http://mywebsite.com/page.html

并且不清楚您所说的存储是什么意思:是关于段还是 crawldb?请注意,如果您抓取这些页面以发现 A 类 URL,则内容将存储在分段中。你逃不掉的。

我的建议:抓取整个东西。稍后,通过设置正则表达式 urlfilter 文件并运行updatedbupdatesegs命令来删除不需要的东西。

于 2012-05-19T17:18:18.610 回答