c# - 将pdf文件转换为excel表格

Question

我是 .net 的新手，我有一个包含三个表格的 pdf，（带有购买详细信息）我的任务是从 pdf 中提取所有 3 个表格，并使用 c# 代码将每个表格转换为一个 excel 表格（三个 excel 表格）。，我用谷歌搜索了 3 天，我只能找到从 pdf 中提取文本的代码（但没有任何格式），我无法购买任何第三方工具，我需要一种方法来至少以适当的表格格式提取文本，然后我将使用互操作将其转换为 excel，或者直接转换为 excel 的代码，无论我急需什么解决方案，请帮助。

score 2 · Accepted Answer

itextpdf支持 c# 从 pdf 中提取信息，但是要回答我们可以提取表的位置：

如上所述：如果从技术角度来看 PDF 不是表单，则无法从看起来像表单的 PDF 中获取字段；如果 PDF 中缺少表格结构（使用标签），您将无法从看起来像表格的 PDF 中获取表格。

我从他们的支持小组得到的

score 1 · Accepted Answer

我建议你看看xpdf。它有一个命令行界面，你可以从你的 pdf 中获取一个文本文件。最重要的是，在列的情况下，xpdf 会生成一个间隔良好的文本文件，因此您可以使用 Substring() 轻松读取数据，或者在最坏的情况下使用正则表达式。在最简单的情况下，您可以将 pdf 输出作为具有“固定宽度字段”的文本文件直接导入 Excel。

c# - 将pdf文件转换为excel表格

2 回答 2

Related

Reference