1

我是 .net 的新手,我有一个包含三个表格的 pdf,(带有购买详细信息)我的任务是从 pdf 中提取所有 3 个表格,并使用 c# 代码将每个表格转换为一个 excel 表格(三个 excel 表格)。,我用谷歌搜索了 3 天,我只能找到从 pdf 中提取文本的代码(但没有任何格式),我无法购买任何第三方工具,我需要一种方法来至少以适当的表格格式提取文本,然后我将使用互操作将其转换为 excel,或者直接转换为 excel 的代码,无论我急需什么解决方案,请帮助。

4

2 回答 2

2

itextpdf支持 c# 从 pdf 中提取信息,但是要回答我们可以提取表的位置:

如上所述:如果从技术角度来看 PDF 不是表单,则无法从看起来像表单的 PDF 中获取字段;如果 PDF 中缺少表格结构(使用标签),您将无法从看起来像表格的 PDF 中获取表格。

我从他们的支持小组得到的

于 2013-09-29T13:08:07.873 回答
1

我建议你看看xpdf。它有一个命令行界面,你可以从你的 pdf 中获取一个文本文件。最重要的是,在列的情况下,xpdf 会生成一个间隔良好的文本文件,因此您可以使用 Substring() 轻松读取数据,或者在最坏的情况下使用正则表达式。在最简单的情况下,您可以将 pdf 输出作为具有“固定宽度字段”的文本文件直接导入 Excel。

于 2013-09-29T14:25:00.530 回答