我一直在搜索和查看许多不同的爬虫。但我不太确定该选择哪一个。
我的目标是搜索整个域http://www.example.com
,即所有子站点,即http://www.example.com/page1
,然后能够搜索不同的标签,尤其是图像标签以找到它们的来源。
到目前为止,只有一个爬虫引起了我的注意:
任何想法?
我一直在搜索和查看许多不同的爬虫。但我不太确定该选择哪一个。
我的目标是搜索整个域http://www.example.com
,即所有子站点,即http://www.example.com/page1
,然后能够搜索不同的标签,尤其是图像标签以找到它们的来源。
到目前为止,只有一个爬虫引起了我的注意:
任何想法?
我可能是错的,但你不仅要求爬虫,而且要求 HTML 分析器——可以理解 html 标签的东西......
如果是这样,您可以使用 JSoup 甚至使用正则表达式进行解析。
如果你真的需要一个爬虫,你可能会发现Nutch是一个血统的开源爬虫
希望这可以帮助