3

我有一个需要从中读取数据的 PDF 文档。我发现,当我将所述 PDF 转换为 XML 文档时,我可以从中读取方便的标签,因此我需要一种在代码中将文件转换为 xml 的方法,这样我就可以使用映射器文件读取数据内容到数据库。

4

1 回答 1

0

使用PDFMiner

PDFMiner 是一个从 PDF 文档中提取信息的工具。它包括一个 PDF 转换器,可以将 PDF 文件转换为其他文本格式(例如 XML/HTML)。

与其他 PDF 相关工具不同,它完全专注于获取和分析文本数据。PDFMiner 允许获取页面中文本的确切位置,以及字体或线条等其他信息。

它有一个可扩展的 PDF 解析器,可用于文本分析以外的其他目的。

于 2012-08-23T11:44:45.503 回答