c# - 从 PDF 中的嵌套表中提取数据

翻译自：https://stackoverflow.com/questions/3528492 2010-08-20T05:55:55.973

1723 次

3

我有一些从 word 或 excel 文件创建的 pdf 文件。
我需要获取表格中的信息。
文档中的文本不是图像，因此我可以使用 pdfbox 等工具提取文本。
当我有文本时，我无法知道它属于表格中的哪些单元格，因为我不知道表格边框在哪里。
我尝试了一些桌面工具，例如 abby 或 solid pdf 转换器，它们能够将文件转换为漂亮的 word 文档，但这不符合我的需要，因为我希望能够在 C# 中以编程方式执行此操作。
有些表有嵌套表，我认为这让这有点困难。

我感谢您的帮助

1 回答 1

1

这里的困难是由于 PDF 中的文本不包含在任何表格中。它可能看起来像，但在表面之下，它不是。

所以我能想到几个选择。但是它们都不会像您希望的那样令人满意。

有些公司提供用于 PDF 到 Excel/Word 转换的 SDK。Investintech 和 Iceni 就是几个例子。但这些解决方案不是免费的。
如果您知道需要从中提取表格数据的 PDF 文件的确切布局，那么您可以使用任何允许您从 PDF 中提取文本并告诉您提取文本的确切坐标的 SDK。使用这种方法，您需要提前知道文本将在哪里，以便您可以从页面上的特定区域提取文本。如果您需要处理任何随机文档，它显然不起作用。

这是一项艰巨的任务，但希望这将为您提供一个起点。

于 2010-08-20T12:19:54.713 回答