4

我正在寻找一个用 Java 编写的爬虫工具,以检测我们网站中的无效 url。

困难在于大部分 url 都是用 javaScript、CSS3 和 Ajax 完成的。因此,仅获取站点 url 的内容是行不通的。

理想的情况是一个无头工具,它能够执行 javaScript、CSS 样式和 AJAX 调用,并吐出它在这样做时访问的各种 url。

我确实意识到这是一项艰巨的任务,但也许它存在于某个地方?

4

2 回答 2

7

我建议在http://htmlunit.sourceforge.net/上使用,它是为这些东西制作的。

于 2011-08-02T11:14:19.547 回答
0

http://hc.apache.org/httpcomponents-client-ga/index.html

于 2011-08-02T12:33:51.693 回答