我正在尝试使用 pdftohtml,但我发现它有时难以正确解析表格。它将两列中的文本分组到一个单元格中,这使我尝试解析结果数据是徒劳的!
请注意,这仅在 PDF 中发生一次或两次,并且非常不可预测。
我已经尝试过最新版本的 pdftohtml(包括 0.40a 测试版),但无济于事。
有人知道任何可能值得尝试的与 Linux 兼容的等价物吗?
谢谢,
山姆
我正在尝试使用 pdftohtml,但我发现它有时难以正确解析表格。它将两列中的文本分组到一个单元格中,这使我尝试解析结果数据是徒劳的!
请注意,这仅在 PDF 中发生一次或两次,并且非常不可预测。
我已经尝试过最新版本的 pdftohtml(包括 0.40a 测试版),但无济于事。
有人知道任何可能值得尝试的与 Linux 兼容的等价物吗?
谢谢,
山姆
pdf2htmlEX是我见过的最好的 pdf-to-html。
安装:brew install pdf2htmlex
我不得不使用brew install -f pdf2htmlex
运行示例:pdf2htmlEX --embed cfijo --dest-dir 'your-directory' your.pdf
使用 .html 和 ref'd 图像创建一个新目录