python - 将 PDF 渲染成图像（自包含，无外部命令行依赖项）（在 AWS Lambda 上使用）

Question

我需要一个简单的 python 库来将 PDF 转换为图像（按原样渲染 PDF），但是经过数小时的搜索，我一直在碰壁，我找到pdf2image了依赖于外部应用程序的 python 库（以及许多类似的库）之类的库或包装命令行工具。

尽管有一些变通方法允许在无服务器设置中使用这些库，但它们都会使我们的部署复杂化，并且需要创建类似Execution Environments或额外的 lambda 层，这将消耗较小的允许 lambda 大小。

是否有一个独立的、独立的机制（不依赖于命令行工具）来实现这个（看似简单的）任务？

另外，我想知道，处理 PDF 的工具稀缺（它们大多是商业的或严格的 AGPL 许可）是否有原因（许可或专利）？

score 1 · Accepted Answer

你说“最终使用 pdf2image”

pdf2image（麻省理工学院）。一个 python (3.6+) 模块，它包装了 pdftoppm (GPL?) 和 pdftocairo (GPL?) 以将 PDF 转换为 PIL Image 对象。

一般来说， Poppler (GPL)是 Open Source Xpdf (GPL ) 的衍生产品，它有

和第 3 方 pdftotiff

python - 将 PDF 渲染成图像（自包含，无外​​部命令行依赖项）（在 AWS Lambda 上使用）