我有一些从 word 或 excel 文件创建的 pdf 文件。
我需要获取表格中的信息。
文档中的文本不是图像,因此我可以使用 pdfbox 等工具提取文本。
当我有文本时,我无法知道它属于表格中的哪些单元格,因为我不知道表格边框在哪里。
我尝试了一些桌面工具,例如 abby 或 solid pdf 转换器,它们能够将文件转换为漂亮的 word 文档,但这不符合我的需要,因为我希望能够在 C# 中以编程方式执行此操作。
有些表有嵌套表,我认为这让这有点困难。
我感谢您的帮助
我有一些从 word 或 excel 文件创建的 pdf 文件。
我需要获取表格中的信息。
文档中的文本不是图像,因此我可以使用 pdfbox 等工具提取文本。
当我有文本时,我无法知道它属于表格中的哪些单元格,因为我不知道表格边框在哪里。
我尝试了一些桌面工具,例如 abby 或 solid pdf 转换器,它们能够将文件转换为漂亮的 word 文档,但这不符合我的需要,因为我希望能够在 C# 中以编程方式执行此操作。
有些表有嵌套表,我认为这让这有点困难。
我感谢您的帮助
这里的困难是由于 PDF 中的文本不包含在任何表格中。它可能看起来像,但在表面之下,它不是。
所以我能想到几个选择。但是它们都不会像您希望的那样令人满意。
这是一项艰巨的任务,但希望这将为您提供一个起点。