javascript - 使用 javascript 屏幕延迟抓取网站

Question

我正在尝试抓取一个具有瞬间 javascript 延迟的网站。

我目前正在使用 python 进行抓取。每当我“获取”页面时，javascript 延迟还没有完成，并且还没有完全加载新的 dom。

我将如何刮掉这样的页面？

score 1 · Accepted Answer

你可以扩展 Mozilla 来构建一个网络爬虫，它可以利用网络浏览器的全部功能。在加载所有数据并构建 DOM 之后，您可以使用 XSLT 从 DOM 中提取所需的数据。如果 DOM 在初始加载后动态更改，您可以采取一些方法来等待更改。访问http://www.gooseeker.com了解更多信息。GooSeeker 为所有人免费发布了一个类似的工具。大多数代码都是 javascript 和可读的，您可以从中找到它的运行方式。

javascript - 使用 javascript 屏幕延迟抓取网站

1 回答 1

Related

Reference