1

我一直在搜索和查看许多不同的爬虫。但我不太确定该选择哪一个。

我的目标是搜索整个域http://www.example.com,即所有子站点,即http://www.example.com/page1 ,然后能够搜索不同的标签,尤其是图像标签以找到它们的来源。

到目前为止,只有一个爬虫引起了我的注意:

任何想法?

4

1 回答 1

2

我可能是错的,但你不仅要求爬虫,而且要求 HTML 分析器——可以理解 html 标签的东西......

如果是这样,您可以使用 JSoup 甚至使用正则表达式进行解析。

如果你真的需要一个爬虫,你可能会发现Nutch是一个血统的开源爬虫

希望这可以帮助

于 2013-08-05T12:37:33.590 回答