我在电子表格中有一堆 URL(1000 个)。它们指向一个内部 Web 应用程序。我需要加载浏览器呈现的每个文件,将其打印为 PDF,然后将所有 PDF 组合成一个大文档。
现在我们有人类在做这项可怕的工作。我希望以某种方式实现自动化。到目前为止,我想出的最好的快速而肮脏的解决方案是创建一个 Selenium 脚本。有没有更快更脏的方法?
我在电子表格中有一堆 URL(1000 个)。它们指向一个内部 Web 应用程序。我需要加载浏览器呈现的每个文件,将其打印为 PDF,然后将所有 PDF 组合成一个大文档。
现在我们有人类在做这项可怕的工作。我希望以某种方式实现自动化。到目前为止,我想出的最好的快速而肮脏的解决方案是创建一个 Selenium 脚本。有没有更快更脏的方法?
首先,将电子表格中包含 url 的列保存为 CSV (urls.csv),这样每行只有一个 url,开头或结尾没有逗号。然后,假设您在 Windows 机器上,您可以从命令行下载并使用带有批处理文件的http://cutycapt.sourceforge.net/ :
SETLOCAL ENABLEDELAYEDEXPANSION
SET /A COUNT=1
FOR /F "tokens=*" %%i IN (urls.csv) DO (
CutyCapt --url=%%i --min-width=1024 --out-format=jpeg --out=screenshot!COUNT!.png
SET /A COUNT+=1
)
CutyCapt 必须与 BAT 和 CSV 文件位于同一目录中。它将网站输出为 JPEG 屏幕截图。如果您安装了 Acrobat Pro,您可以右键单击它们并将它们合并为一个 PDF。那应该可以为您节省一些钱;)
First write all your URL's in a .htm file on your computer.
in Acrobat Pro (v9) :