xml - 如何将pdf文档转换为xml并获取包含表格数据的部分。

Question

有一个pdf文档，我想把它转换成xml或者html。

由于pdf文档包含一些表格，当它转换为xml或html时，我不知道哪个是表格数据，哪个是文本。

我想获取表数据来存储数据库。

xpdf或mupdf可以做到吗？

谢谢。

score 1 · Accepted Answer

PDF（通常）不包含有关文本的信息。文本就是文本，没有信息可以识别表格中的文本。

因此，任何 PDF 阅读应用程序都没有可靠的方法将文本识别为表格的一部分。因此，MuPDF 将无法告诉您这一点。

当然，您可以尝试自己应用启发式方法，识别具有相同垂直偏移的行中的文本，并以常规 x 偏移查找水平间隔的文本。

score 0 · Accepted Answer

您可以查看免费的表格 https://tabula.technology/

“一种释放锁定在 PDF 文件中的数据表的工具”。

它是一个网络应用程序。您可以在 linux 或 windows 机器上安装 tabula 并在其他电脑上使用它。

2 回答 2