1

我正在做一个项目,我有一个描述其中一项健康政策的 pdf 文件。我需要做的是从此 PDF 中提取信息并尝试以某种形式保存它,以便我可以通过从此 PDf 中提取信息来回答与政策相关的问题。

这个 PDF 太大了,所以我想根据不同的部分来划分 PDF,这样当涉及到某个特定区域的查询时,我就不必遍历整个文档。

我尝试使用一些将 PDF 转换为 HTML 的 pdf 转换器来解决这个问题。但是这些转换器不会正确地将 PDF 转换为 HTML,因此标题将具有标题标签。此外,即使我正确转换并从文档中获取正确的部分,我也不知道如何存储这些数据。(我的意思是我应该以哪种形式存储这些数据)。

有没有其他解决方案可以实现这一点。我正在使用 Python,如果需要,我也可以使用 NLTK。PDfs 的格式也不是固定的,我的意思是说我的代码应该适用于任何类型的 PDF。

4

1 回答 1

1

PDFMiner很棒,因为它可以为从 PDF 中获取的每一位文本提供位置。它不会很好地放在标题标签或类似的东西中,但如果您的文档中有一致的 PDF 结构,您可能会得到一些工作。

于 2013-09-18T23:39:37.850 回答