我是 .net 的新手,我有一个包含三个表格的 pdf,(带有购买详细信息)我的任务是从 pdf 中提取所有 3 个表格,并使用 c# 代码将每个表格转换为一个 excel 表格(三个 excel 表格)。,我用谷歌搜索了 3 天,我只能找到从 pdf 中提取文本的代码(但没有任何格式),我无法购买任何第三方工具,我需要一种方法来至少以适当的表格格式提取文本,然后我将使用互操作将其转换为 excel,或者直接转换为 excel 的代码,无论我急需什么解决方案,请帮助。
问问题
4441 次
2 回答
1
我建议你看看xpdf。它有一个命令行界面,你可以从你的 pdf 中获取一个文本文件。最重要的是,在列的情况下,xpdf 会生成一个间隔良好的文本文件,因此您可以使用 Substring() 轻松读取数据,或者在最坏的情况下使用正则表达式。在最简单的情况下,您可以将 pdf 输出作为具有“固定宽度字段”的文本文件直接导入 Excel。
于 2013-09-29T14:25:00.530 回答