我想用 iTextSharp 解析 PDF 文件。对于带标签的 PDF,我使用了 TaggedPdfReaderTool 和 .ConvertToXml() 方法,该方法返回了可接受的 XML 以供进一步解析。现在我必须解析我需要解析的未标记 PDF!在 Adobe Acrobat 中,您可以使用其辅助工具将标签添加到 PDF。之后,我可以用 iTextSharp 解析它。现在我正在寻找一种免费的解决方案,以编程方式(使用 iTextSharp)向我的 PDF 添加标签。在“iText in Action”一书中,我读到您可以创建一个带标签的 PDF(从 XML 文件),但我需要转换一个现有的!
我用于解析标记 PDF 的代码:
var path = @"C:\Users\xxx\Desktop\xxx.pdf";
var fs = new FileStream(@"C:\Users\xxx\Desktop\xxx_tagged.xml", FileMode.Create);
PdfReader reader = new PdfReader(path);
TaggedPdfReaderTool tool = new TaggedPdfReaderTool();
tool.ConvertToXml(reader, fs);
fs.Close();