我正在寻找一种方法来实际获取文件本身的内容,以文本格式转储。例如:我不想要一个字典对象,我不想要某种提取策略选项,我只想要 itextsharp 用来解析的同一个文本文档......整个事情作为一个字符串或字符串生成器......
我还没有找到一种方法来使用任何工具来做到这一点......我的问题是我正在尝试将动态 PDF 读入 C# 应用程序......我们都知道那些该死的动态 PDF 不能由 iTextSharp 解析(AcroForm 和 AcroFields 总是空的),所以我想如果我能得到整个文件的实际文本转储,我可以看到它的样子并为这个特定任务自己解析它(例如:make我知道我可以收到的每个文件的一个类,并根据我所看到的在那里制作地图)。
如果有人可以帮助我做到这一点,或者甚至更好地找到一种方法,在 C# 中提取 PDF 的 XML 源(有点像单击 LiveCycle 中的 XML 源选项卡),那将不胜感激。
谢谢!
马特