我有一个包含文本和图像内容的 pdf 文件。我需要解析它。有没有什么红宝石可以有用?我试过pdf-reader ruby gem,但没有解析图像:(
一种替代解决方案是将 pdf 提取为 html,然后解析 html 内容。是否有任何开源 pdf2html 转换器可以同时处理文本和图像?
我有一个包含文本和图像内容的 pdf 文件。我需要解析它。有没有什么红宝石可以有用?我试过pdf-reader ruby gem,但没有解析图像:(
一种替代解决方案是将 pdf 提取为 html,然后解析 html 内容。是否有任何开源 pdf2html 转换器可以同时处理文本和图像?
pdf-reader 可以提取图像,但是没有像 PDF::Reader::Page#text() 这样的好帮手,所以它非常手动。
查看 extract_images.rd 示例 @ [1]。
[1] https://github.com/yob/pdf-reader/blob/master/examples/extract_images.rb