有一个pdf文档,我想把它转换成xml或者html。
由于pdf文档包含一些表格,当它转换为xml或html时,我不知道哪个是表格数据,哪个是文本。
我想获取表数据来存储数据库。
xpdf或mupdf可以做到吗?
谢谢。
PDF(通常)不包含有关文本的信息。文本就是文本,没有信息可以识别表格中的文本。
因此,任何 PDF 阅读应用程序都没有可靠的方法将文本识别为表格的一部分。因此,MuPDF 将无法告诉您这一点。
当然,您可以尝试自己应用启发式方法,识别具有相同垂直偏移的行中的文本,并以常规 x 偏移查找水平间隔的文本。
您可以查看免费的表格 https://tabula.technology/
“一种释放锁定在 PDF 文件中的数据表的工具”。
它是一个网络应用程序。您可以在 linux 或 windows 机器上安装 tabula 并在其他电脑上使用它。