3
  1. 我有一些从 word 或 excel 文件创建的 pdf 文件。

  2. 我需要获取表格中的信息。

  3. 文档中的文本不是图像,因此我可以使用 pdfbox 等工具提取文本。

  4. 当我有文本时,我无法知道它属于表格中的哪些单元格,因为我不知道表格边框在哪里。

  5. 我尝试了一些桌面工具,例如 abby 或 solid pdf 转换器,它们能够将文件转换为漂亮的 word 文档,但这不符合我的需要,因为我希望能够在 C# 中以编程方式执行此操作。

  6. 有些表有嵌套表,我认为这让这有点困难。

我感谢您的帮助

4

1 回答 1

1

这里的困难是由于 PDF 中的文本不包含在任何表格中。它可能看起来像,但在表面之下,它不是。

所以我能想到几个选择。但是它们都不会像您希望的那样令人满意。

  1. 有些公司提供用于 PDF 到 Excel/Word 转换的 SDK。Investintech 和 Iceni 就是几个例子。但这些解决方案不是免费的。
  2. 如果您知道需要从中提取表格数据的 PDF 文件的确切布局,那么您可以使用任何允许您从 PDF 中提取文本并告诉您提取文本的确切坐标的 SDK。使用这种方法,您需要提前知道文本将在哪里,以便您可以从页面上的特定区域提取文本。如果您需要处理任何随机文档,它显然不起作用。

这是一项艰巨的任务,但希望这将为您提供一个起点。

于 2010-08-20T12:19:54.713 回答