c# - C# - 比使用 Javascript 从域中抓取 PDF 文件更好的方法

Question

我目前正在构建一个基于 watin 的小应用程序，它登录到一个网站，然后开始通过一系列 URL 来使用 Watin 下载 PDF 文件。

该网站使用大量 javascript 来加载嵌入 HTML 中的 pdf。

该程序目前运行良好，但速度很慢，因为 watin 不能非常有效地处理下载（它使用 Firefox 下载系统并在保存前缓慢键入文件名。

我想知道是否有更好的 Web Scraping 框架可以为 Ajax 站点提供相同的支持，但更好/更快地下载文件。

我在网上到处都发现了 selenium，但它在文件下载方面并不比 watin 更有效。

在此先感谢您的帮助。

score 0 · Accepted Answer

您可以使用这两个 API 作为主要引擎编写 Google Chrome 扩展程序：

https://developer.chrome.com/extensions/webRequest.html 了解何时以及如何进行身份验证以及何时开始下载，并且：

无论这两个 API 中缺少什么来实现您的目标，您都可以使用自定义内容脚本来弥补 - 一个 javascript 注入到由扩展程序打开的页面中 - 例如挂钩到 jquery 的 .ready 事件以进行初始化刮。

这些肯定会比 Watin 快，因为为 watin 编写是一个抽象层，而不是直接与浏览器对话。

1 回答 1