regex - 使用正则表达式进行 Nutch 爬行

Question

我想抓取一个网站，但只保存那些网页，例如：

任何其他链接。: http://mywebsite.com/a/b/或http://mywebsite.com/a/ 或任何类似的东西都应该在队列中被 crwaled ，但它们应该只是用来获取更多的 url 喜欢“类型A”但未存储。

如何在 nutch 的 regex-urlfilter.txt 中使用正则表达式。

或在 RegexUrlNormalizer.xml

" 我认为整体爬行会是更好的选择 . 但我也希望在爬行的时候那样 . 如果 URL 有锚链接类型 A : http://mywebsite.com/page.html . 我想存储那个链接 A 是通过这个网页获得。所以在我爬取之后，我可以删除页面并只获取A类页面，我有这个A类网页是从哪个特定网页获得的。我可以配置nutch来这样做吗？，如果是，一些提示.我需要修改源代码吗？用nutch写我自己的插件。？”

score 0 · Accepted Answer

我对 nutch 一无所知，但我可以帮助处理正则表达式。根据我上面的评论，现在我很清楚你想要匹配什么。

从你到目前为止的例子中：

".*\.html" will match anything that ends ".html"

score -1 · Accepted Answer

您希望http://mywebsite.com/a/b/或http://mywebsite.com/a/被抓取并仅存储 Type A url，即。http://mywebsite.com/page.html？

并且不清楚您所说的存储是什么意思：是关于段还是 crawldb？请注意，如果您抓取这些页面以发现 A 类 URL，则内容将存储在分段中。你逃不掉的。

我的建议：抓取整个东西。稍后，通过设置正则表达式 urlfilter 文件并运行updatedb和updatesegs命令来删除不需要的东西。

regex - 使用正则表达式进行 Nutch 爬行

2 回答 2

Related

Reference