0

有一个pdf文档,我想把它转换成xml或者html

由于pdf文档包含一些表格,当它转换为xmlhtml时,我不知道哪个是表格数据,哪个是文本。

我想获取表数据来存储数据库。

xpdfmupdf可以做到吗?

谢谢。

4

2 回答 2

1

PDF(通常)不包含有关文本的信息。文本就是文本,没有信息可以识别表格中的文本。

因此,任何 PDF 阅读应用程序都没有可靠的方法将文本识别为表格的一部分。因此,MuPDF 将无法告诉您这一点。

当然,您可以尝试自己应用启发式方法,识别具有相同垂直偏移的行中的文本,并以常规 x 偏移查找水平间隔的文本。

于 2015-07-27T06:11:57.217 回答
0

您可以查看免费的表格 https://tabula.technology/

“一种释放锁定在 PDF 文件中的数据表的工具”。

它是一个网络应用程序。您可以在 linux 或 windows 机器上安装 tabula 并在其他电脑上使用它。

于 2019-12-24T04:23:36.440 回答