python - 如何从 PDF 或 Word 中提取图像以及图像周围的文本？

Question

我发现有一些库可以从 PDF 或 word 中提取图像，例如 docx2txt 和 pdfimages。但是如何获取图像周围的内容（例如图像下方可能有标题）？或者获取每张图片的页码？</p>

PyPDF2 和 minecart 等其他一些工具可以逐页提取图像。但是，我无法成功运行这些代码。

有没有一种很好的方法来获取图像的一些信息？（从 docx2txt 或 pdfimages 获得的图像，或另一种提取带有信息的图像的方式）

score 0 · Accepted Answer

我找到了 doc2txt 的代码，它只是解析 docx 文件的 xml。所以这实际上是一个非常简单的任务..

参考：doc2txt

score 0 · Accepted Answer

几个月前，我对 docx2python 进行了重新编程，以从 docx 文件中复制结构化（具有级别）xml 格式文件，这在许多文件上都非常有效。

据我所知，一个段落包含几个 Runs，每个 Run 只包含一个文本，有时包含图像。您可以阅读此文档了解详细信息。 https://docs.microsoft.com/en-us/dotnet/api/documentformat.openxml.wordprocessing.paragraph?view=openxml-2.8.1。

docx2python 支持提取带有文本的图像。您使用 docx2python 阅读段落，同时----media/imagen----显示在您的文本中，这是一个图像占位符。然后，如果您设置，您可以到达此图像extract_image=True。好吧，你会得到你的图像在 pagaraph 文本和图像文件列表中调用的内容。随心所欲搭配。

score 0 · Accepted Answer

docx2python将图像拉入文件夹并-----image1.png----在提取的文本中留下标记。这可能会让你接近你想去的地方。

python - 如何从 PDF 或 Word 中提取图像以及图像周围的文本？

3 回答 3

Related

Reference