问题标签 [pymupdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
142 浏览

python - 如何确定 PDF 页面是否包含编辑材料?

我有一组 PDF,其中一些页面的部分内容通过 Adob​​e Acrobat 进行了编辑。我想以编程方式遍历每个页面并确定页面是否包含编辑内容,最好使用 Python(请注意,我在遍历 PDF 页面时没有遇到问题,只是确定是否存在编辑内容)。

我已经使用PyMuPDF 的 getText()函数来检查 PDF 的编辑空间文本层中的任何“幽灵”指示符,但似乎没有任何线索。我想知道 PDF 中是否有任何其他数据隐藏在我可以提取的指向编辑层的数据中。

0 投票
1 回答
4016 浏览

python - 无法读取在线提供的 pdf 文件的特定页面的内容

我已经使用PyMuPDF库在本地解析 pdf 文件的任何特定页面的内容,并发现它可以正常工作。但是,当我在解析在线可用的 pdf 文件的任何特定页面的内容时尝试应用相同的逻辑时,会遇到错误。

我使用以下脚本(本地pdf)获得了成功:

下面的脚本会引发错误(在线提供的 pdf 文件):

脚本遇到的错误:

如何直接从网上阅读内容?

0 投票
2 回答
1740 浏览

python-3.x - 用 pymupdf 以正确的顺序提取 pdf 的图像

我目前正在为 pdf 文件开发 Python 3.x 图像提取器,但似乎无法找到解决我在整个工作过程中遇到的问题的解决方案。我的目的是提取 pdf 文件(车辆报告)的所有图像,而无需提供这些文件的公司的徽标。到目前为止,我有一个使用 fitz 的工作代码,它可以找到图像并存储它们(我在互联网上找到了这个代码)。不幸的是,它们以错误的顺序退回。为了用标题注释图片,它们必须按照它们在 pdf 中的显示顺序保存。

我已经尝试通过按升序使用外部参照字符串(在 pdf 中定义对象的字符串)中定义的对象名称来解决这个问题。在那个版本之前,我通过字典用计数器注释图片(我知道它是未排序的,但通过对键进行排序来修复它),但是大约 30 张图像中有大约 2-4 张未排序。此外,这段代码对我来说似乎不是一个好的解决方案,因为我通过注释计数器来“伪造”图像编号。

我当前的版本(外部参照名称):

也可以随意提出一种全新的方式来完成这项任务。在此先感谢您的帮助。

0 投票
1 回答
946 浏览

python - 如何在 PyMuPDF 中获取文本的背景颜色

我想看看我是否可以使用文本的背景色和前景色来识别 PDF 内表格中可能的表格标题。通过 PyMuPDF 文本提取,我能够获得前景色。想知道是否也有办法获得背景颜色。

我在 python 3.7 中使用 pymupdf 1.16.2 我检查了文档,但只能找到一个颜色字段,它与 Text-color 而不是 background-color 相关联

如果有人知道如何使用 pyMuPDF 或其他包获取背景颜色,请告诉我

0 投票
1 回答
557 浏览

python - 关于在pdf文档python中突出显示文本的问题

我正在尝试编写一个 python 脚本,该脚本将自动在 pdf 中查找文本并根据

我正在使用 python 的 pymupdf 模块。它适用于一些pdf。但是,对于目标 pdf(组件和属性表的绘图),它会将输出保存为没有数据和一些空白突出显示的空白 pdf。

0 投票
1 回答
1065 浏览

python - Camelot PDF 尺寸

在发布此内容之前,我已经广泛搜索了 stackoverflow,并且无法在 camelot 页面尺寸上找到任何内容。有这个问题,它建议使用table_region但不能解决 OP 的问题或我的问题。不幸的是,我无法评论跟进 OP,看看他们是否找到了解决方案。

我正在尝试做的事情:

我正在使用 Camelot 来识别表格(显然)。有时,当我知道可能包含感兴趣表格的页面区域时,我只想在该区域中进行搜索。这很容易使用camelot.read_pdf()'s table_regionkwarg 完成——我只需要提供一对坐标供 Camelot 搜索。

问题是,我使用 PyMuPDF 获得这些坐标,所以它们在 PyMuPDF 的坐标系中。我已经想出了如何翻译这些坐标,但我错过了来自 Camelot 的一个关键信息——页面的尺寸。这些值很容易在 PyMuPDF(Page 类.bound()属性)中获得,我需要 Camelot 等价物。如果有人认为可能有其他选择,我可以在这里提供代数的进一步解释

到目前为止我所尝试的

我阅读了文档。由于文档中的这一行,我想知道这是否可以提供一种获取尺寸的方法:“使用 Lattice 时可能会出现未检测到较小线条的情况。计算检测到的最小线条的大小通过将 PDF 页面的尺寸与称为 的比例因子相除line_scale。默认情况下,其值为 15"

我对替代方案持开放态度,基本上我要么想检查页面的区域是否包含表格(在 PyMuPDF 坐标系中描述的区域,对于 pdf 页面,尺寸通常为(612、792),原点位于顶部左角。camelot 的原点在左下角)或者页面上的任何表格都在给定区域中,如果这有意义的话。

0 投票
1 回答
787 浏览

python - PyMuPDF | 插入的图像位于 pdf 页面的错误位置

我需要将图像插入 pdf 的某些页面并使用insertImage。按照我提供的示例fitz.Rect(0, 0, 50, 50),我想将图像放在页面的左上角。适用于所有 pdf,但只有一个 - 扫描文档,其图像出现在页面中心的某处,并且图像也旋转了 90 度。什么可能导致该特定 pdf 的结果不同,我该如何解决?

0 投票
1 回答
49 浏览

python-3.x - PyMuPdf - 缺少 addPage(page) 方法

我以前用过 PyPDF2,我写了这个类

现在我正在尝试使用 PyMuPdf 实现相同的目标,但我找不到将页面对象添加到文档对象的方法。

提前感谢您的帮助。

0 投票
2 回答
1208 浏览

python - 如何在 Heroku Django 上安装 PyMuPDF

我正在尝试制作一个从 PDF 中提取图像的脚本,我在 Django 项目中制作了一个脚本并将 pymupdf 添加到 requirements.txt。我有一个带有 Mupdf 的 Aptfile 和https://github.com/heroku/ heroku-buildpack-apt与 heroku/python 一起作为 buildpack。尝试将 master 推送到 Heroku 时,推送失败,这是错误。

`

0 投票
1 回答
2533 浏览

python - 从pdf中提取矩形中的文本 - Python

我需要从 Pdf 中提取矩形中的文本。我测试了几种方法。但没有得到具体的文字。例如,我使用 PyMuPDF、pdfplumber、tabula、camelot、pdftables 包进行了测试。在 PyMuPDF 模块中,它要求输入开头和结尾的词来提取文本。据我了解,剩余的包也只是提取线条、曲线信息而不是文本。

我想在不提供任何开始和结束文本的情况下从 PDF 中的矩形获取文本。

https://drive.google.com/file/d/1wCvik7VbEvDwbT-mapgXc8fwlq7Ao3BP/view?usp=sharing