我发现有一些库可以从 PDF 或 word 中提取图像,例如 docx2txt 和 pdfimages。但是如何获取图像周围的内容(例如图像下方可能有标题)?或者获取每张图片的页码?</p>
PyPDF2 和 minecart 等其他一些工具可以逐页提取图像。但是,我无法成功运行这些代码。
有没有一种很好的方法来获取图像的一些信息?(从 docx2txt 或 pdfimages 获得的图像,或另一种提取带有信息的图像的方式)
我发现有一些库可以从 PDF 或 word 中提取图像,例如 docx2txt 和 pdfimages。但是如何获取图像周围的内容(例如图像下方可能有标题)?或者获取每张图片的页码?</p>
PyPDF2 和 minecart 等其他一些工具可以逐页提取图像。但是,我无法成功运行这些代码。
有没有一种很好的方法来获取图像的一些信息?(从 docx2txt 或 pdfimages 获得的图像,或另一种提取带有信息的图像的方式)
我找到了 doc2txt 的代码,它只是解析 docx 文件的 xml。所以这实际上是一个非常简单的任务..
参考:doc2txt
几个月前,我对 docx2python 进行了重新编程,以从 docx 文件中复制结构化(具有级别)xml 格式文件,这在许多文件上都非常有效。
据我所知,一个段落包含几个 Runs,每个 Run 只包含一个文本,有时包含图像。您可以阅读此文档了解详细信息。 https://docs.microsoft.com/en-us/dotnet/api/documentformat.openxml.wordprocessing.paragraph?view=openxml-2.8.1。
docx2python 支持提取带有文本的图像。您使用 docx2python 阅读段落,同时----media/imagen----
显示在您的文本中,这是一个图像占位符。然后,如果您设置,您可以到达此图像extract_image=True
。好吧,你会得到你的图像在 pagaraph 文本和图像文件列表中调用的内容。随心所欲搭配。
docx2python
将图像拉入文件夹并-----image1.png----
在提取的文本中留下标记。这可能会让你接近你想去的地方。