2

我在电子表格中有一堆 URL(1000 个)。它们指向一个内部 Web 应用程序。我需要加载浏览器呈现的每个文件,将其打印为 PDF,然后将所有 PDF 组合成一个大文档。

现在我们有人类在做这项可怕的工作。我希望以某种方式实现自动化。到目前为止,我想出的最好的快速而肮脏的解决方案是创建一个 Selenium 脚本。有没有更快更脏的方法?

4

2 回答 2

3

首先,将电子表格中包含 url 的列保存为 CSV (urls.csv),这样每行只有一个 url,开头或结尾没有逗号。然后,假设您在 Windows 机器上,您可以从命令行下载并使用带有批处理文件的http://cutycapt.sourceforge.net/ :

SETLOCAL ENABLEDELAYEDEXPANSION
SET /A COUNT=1
FOR /F "tokens=*" %%i IN (urls.csv) DO (
    CutyCapt --url=%%i --min-width=1024 --out-format=jpeg --out=screenshot!COUNT!.png
    SET /A COUNT+=1
)

CutyCapt 必须与 BAT 和 CSV 文件位于同一目录中。它将网站输出为 JPEG 屏幕截图。如果您安装了 Acrobat Pro,您可以右键单击它们并将它们合并为一个 PDF。那应该可以为您节省一些钱;)

于 2013-09-03T21:43:19.610 回答
1

First write all your URL's in a .htm file on your computer.

in Acrobat Pro (v9) :

  1. Menu file > Create PDF > From Web Page… => Opens the 'Create PDF' window
  2. Enter the URL = http/... or in your case browse to the html file you created
  3. Click 'Capture Multiple Levels' > Get only = 2 levels
  4. Click 'Settings…" to adjust the page size, margins, etc
  5. Click 'Create' and wait while Acrobat constructs the file
于 2019-04-18T19:52:39.873 回答