4

我目前正在构建一个基于 watin 的小应用程序,它登录到一个网站,然后开始通过一系列 URL 来使用 Watin 下载 PDF 文件。

该网站使用大量 javascript 来加载嵌入 HTML 中的 pdf。

该程序目前运行良好,但速度很慢,因为 watin 不能非常有效地处理下载(它使用 Firefox 下载系统并在保存前缓慢键入文件名。

我想知道是否有更好的 Web Scraping 框架可以为 Ajax 站点提供相同的支持,但更好/更快地下载文件。

我在网上到处都发现了 selenium,但它在文件下载方面并不比 watin 更有效。

在此先感谢您的帮助。

4

1 回答 1

0

您可以使用这两个 API 作为主要引擎编写 Google Chrome 扩展程序:

https://developer.chrome.com/extensions/webRequest.html 了解何时以及如何进行身份验证以及何时开始下载,并且:

https://developer.chrome.com/extensions/downloads.html 开始下载文件。

无论这两个 API 中缺少什么来实现您的目标,您都可以使用自定义内容脚本来弥补 - 一个 javascript 注入到由扩展程序打开的页面中 - 例如挂钩到 jquery 的 .ready 事件以进行初始化刮。

这些肯定会比 Watin 快,因为为 watin 编写是一个抽象层,而不是直接与浏览器对话。

于 2012-11-12T20:42:17.550 回答