0

我有一个问题:我想解析一个页面(例如这个)来收集有关提供的应用程序的信息并将这些信息保存到数据库中。

此外,我正在使用crawler4j来访问每个(可用的)页面。但问题 - 正如我所看到的 - 是,crawler4j 需要在源代码中跟随链接。

但在这种情况下,hrefs 是由一些 JavaScript 代码生成的,因此 crawler4j 不会获得要访问的新链接/要抓取的页面。

所以我的想法是使用Selenium,这样我就可以在 Chrome 或 Firefox 等真实浏览器中检查多个元素(我对此很陌生)。

但是,老实说,我不知道如何获取“生成的”HTML 而不是源代码。

有谁能够帮我?

4

1 回答 1

0

要检查元素,您不需要 Selenium IDE,只需使用带有 Firebug 扩展的 Firefox。此外,通过添加开发人员工具,您可以查看页面的源代码以及生成的源代码(这主要用于 PHP)。

Crawler4J 不能像这样处理 javascript。最好留给另一个更高级的爬虫库。在此处查看此回复:

使用 java 的 Web 抓取(启用 Ajax/JavaScript 的页面)

于 2014-09-15T21:01:35.307 回答