我正在寻找一个用 Java 编写的爬虫工具,以检测我们网站中的无效 url。
困难在于大部分 url 都是用 javaScript、CSS3 和 Ajax 完成的。因此,仅获取站点 url 的内容是行不通的。
理想的情况是一个无头工具,它能够执行 javaScript、CSS 样式和 AJAX 调用,并吐出它在这样做时访问的各种 url。
我确实意识到这是一项艰巨的任务,但也许它存在于某个地方?
我正在寻找一个用 Java 编写的爬虫工具,以检测我们网站中的无效 url。
困难在于大部分 url 都是用 javaScript、CSS3 和 Ajax 完成的。因此,仅获取站点 url 的内容是行不通的。
理想的情况是一个无头工具,它能够执行 javaScript、CSS 样式和 AJAX 调用,并吐出它在这样做时访问的各种 url。
我确实意识到这是一项艰巨的任务,但也许它存在于某个地方?
我建议在http://htmlunit.sourceforge.net/上使用,它是为这些东西制作的。