ruby - 具有文本和图像的 Ruby Parse PDF 文件

Question

我有一个包含文本和图像内容的 pdf 文件。我需要解析它。有没有什么红宝石可以有用？我试过pdf-reader ruby gem，但没有解析图像:(

一种替代解决方案是将 pdf 提取为 html，然后解析 html 内容。是否有任何开源 pdf2html 转换器可以同时处理文本和图像？

score 2 · Accepted Answer

pdf-reader 可以提取图像，但是没有像 PDF::Reader::Page#text() 这样的好帮手，所以它非常手动。

查看 extract_images.rd 示例 @ [1]。

1 回答 1