2

我正在尝试使用 pdftohtml,但我发现它有时难以正确解析表格。它将两列中的文本分组到一个单元格中,这使我尝试解析结果数据是徒劳的!

请注意,这仅在 PDF 中发生一次或两次,并且非常不可预测。

我已经尝试过最新版本的 pdftohtml(包括 0.40a 测试版),但无济于事。

有人知道任何可能值得尝试的与 Linux 兼容的等价物吗?

谢谢,

山姆

4

1 回答 1

1

pdf2htmlEX是我见过的最好的 pdf-to-html。

安装:brew install pdf2htmlex

我不得不使用brew install -f pdf2htmlex

运行示例:pdf2htmlEX --embed cfijo --dest-dir 'your-directory' your.pdf

使用 .html 和 ref'd 图像创建一个新目录

于 2015-01-29T11:19:26.377 回答