“pymupdf”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

142 浏览

python - 如何确定 PDF 页面是否包含编辑材料？

我有一组 PDF，其中一些页面的部分内容通过 Adobe Acrobat 进行了编辑。我想以编程方式遍历每个页面并确定页面是否包含编辑内容，最好使用 Python（请注意，我在遍历 PDF 页面时没有遇到问题，只是确定是否存在编辑内容）。

我已经使用PyMuPDF 的 getText()函数来检查 PDF 的编辑空间文本层中的任何“幽灵”指示符，但似乎没有任何线索。我想知道 PDF 中是否有任何其他数据隐藏在我可以提取的指向编辑层的数据中。

2019-08-08T18:12:59.337

0 投票

1 回答

4016 浏览

python - 无法读取在线提供的 pdf 文件的特定页面的内容

我已经使用PyMuPDF库在本地解析 pdf 文件的任何特定页面的内容，并发现它可以正常工作。但是，当我在解析在线可用的 pdf 文件的任何特定页面的内容时尝试应用相同的逻辑时，会遇到错误。

我使用以下脚本（本地pdf）获得了成功：

下面的脚本会引发错误（在线提供的 pdf 文件）：

脚本遇到的错误：

如何直接从网上阅读内容？

python python-3.x pdf web-scraping pymupdf

2019-08-16T20:50:42.373

0 投票

2 回答

1740 浏览

python-3.x - 用 pymupdf 以正确的顺序提取 pdf 的图像

我目前正在为 pdf 文件开发 Python 3.x 图像提取器，但似乎无法找到解决我在整个工作过程中遇到的问题的解决方案。我的目的是提取 pdf 文件（车辆报告）的所有图像，而无需提供这些文件的公司的徽标。到目前为止，我有一个使用 fitz 的工作代码，它可以找到图像并存储它们（我在互联网上找到了这个代码）。不幸的是，它们以错误的顺序退回。为了用标题注释图片，它们必须按照它们在 pdf 中的显示顺序保存。

我已经尝试通过按升序使用外部参照字符串（在 pdf 中定义对象的字符串）中定义的对象名称来解决这个问题。在那个版本之前，我通过字典用计数器注释图片（我知道它是未排序的，但通过对键进行排序来修复它），但是大约 30 张图像中有大约 2-4 张未排序。此外，这段代码对我来说似乎不是一个好的解决方案，因为我通过注释计数器来“伪造”图像编号。

我当前的版本（外部参照名称）：

也可以随意提出一种全新的方式来完成这项任务。在此先感谢您的帮助。

python-3.x pdf image-extraction pymupdf

2019-09-02T08:59:37.593

0 投票

1 回答

946 浏览

python - 如何在 PyMuPDF 中获取文本的背景颜色

我想看看我是否可以使用文本的背景色和前景色来识别 PDF 内表格中可能的表格标题。通过 PyMuPDF 文本提取，我能够获得前景色。想知道是否也有办法获得背景颜色。

我在 python 3.7 中使用 pymupdf 1.16.2 我检查了文档，但只能找到一个颜色字段，它与 Text-color 而不是 background-color 相关联

如果有人知道如何使用 pyMuPDF 或其他包获取背景颜色，请告诉我

python pdf-extraction pymupdf

2019-09-26T06:30:06.457

0 投票

1 回答

557 浏览

python - 关于在pdf文档python中突出显示文本的问题

我正在尝试编写一个 python 脚本，该脚本将自动在 pdf 中查找文本并根据

我正在使用 python 的 pymupdf 模块。它适用于一些pdf。但是，对于目标 pdf（组件和属性表的绘图），它会将输出保存为没有数据和一些空白突出显示的空白 pdf。

python pdf annotations pymupdf

2019-11-07T23:00:32.533

0 投票

1 回答

1065 浏览

python - Camelot PDF 尺寸

在发布此内容之前，我已经广泛搜索了 stackoverflow，并且无法在 camelot 页面尺寸上找到任何内容。有这个问题，它建议使用table_region但不能解决 OP 的问题或我的问题。不幸的是，我无法评论跟进 OP，看看他们是否找到了解决方案。

我正在尝试做的事情：

我正在使用 Camelot 来识别表格（显然）。有时，当我知道可能包含感兴趣表格的页面区域时，我只想在该区域中进行搜索。这很容易使用camelot.read_pdf()'s table_regionkwarg 完成——我只需要提供一对坐标供 Camelot 搜索。

问题是，我使用 PyMuPDF 获得这些坐标，所以它们在 PyMuPDF 的坐标系中。我已经想出了如何翻译这些坐标，但我错过了来自 Camelot 的一个关键信息——页面的尺寸。这些值很容易在 PyMuPDF（Page 类.bound()属性）中获得，我需要 Camelot 等价物。如果有人认为可能有其他选择，我可以在这里提供代数的进一步解释

到目前为止我所尝试的：

我阅读了文档。由于文档中的这一行，我想知道这是否可以提供一种获取尺寸的方法：“使用 Lattice 时可能会出现未检测到较小线条的情况。计算检测到的最小线条的大小通过将 PDF 页面的尺寸与称为的比例因子相除line_scale。默认情况下，其值为 15"

我对替代方案持开放态度，基本上我要么想检查页面的区域是否包含表格（在 PyMuPDF 坐标系中描述的区域，对于 pdf 页面，尺寸通常为（612、792），原点位于顶部左角。camelot 的原点在左下角）或者页面上的任何表格都在给定区域中，如果这有意义的话。

python python-camelot pymupdf

2019-12-03T19:19:35.197

0 投票

1 回答

787 浏览

python - PyMuPDF | 插入的图像位于 pdf 页面的错误位置

我需要将图像插入 pdf 的某些页面并使用insertImage。按照我提供的示例fitz.Rect(0, 0, 50, 50)，我想将图像放在页面的左上角。适用于所有 pdf，但只有一个 - 扫描文档，其图像出现在页面中心的某处，并且图像也旋转了 90 度。什么可能导致该特定 pdf 的结果不同，我该如何解决？

python image pdf pymupdf

2019-12-04T15:06:11.570

0 投票

1 回答

49 浏览

python-3.x - PyMuPdf - 缺少 addPage(page) 方法

我以前用过 PyPDF2，我写了这个类

现在我正在尝试使用 PyMuPdf 实现相同的目标，但我找不到将页面对象添加到文档对象的方法。

提前感谢您的帮助。

python-3.x pymupdf

2019-12-28T15:32:48.527

0 投票

2 回答

1208 浏览

python - 如何在 Heroku Django 上安装 PyMuPDF

我正在尝试制作一个从 PDF 中提取图像的脚本，我在 Django 项目中制作了一个脚本并将 pymupdf 添加到 requirements.txt。我有一个带有 Mupdf 的 Aptfile 和https://github.com/heroku/ heroku-buildpack-apt与 heroku/python 一起作为 buildpack。尝试将 master 推送到 Heroku 时，推送失败，这是错误。

`

python django pdf heroku pymupdf

2020-02-10T12:57:56.867

0 投票

1 回答

2533 浏览

python - 从pdf中提取矩形中的文本 - Python

我需要从 Pdf 中提取矩形中的文本。我测试了几种方法。但没有得到具体的文字。例如，我使用 PyMuPDF、pdfplumber、tabula、camelot、pdftables 包进行了测试。在 PyMuPDF 模块中，它要求输入开头和结尾的词来提取文本。据我了解，剩余的包也只是提取线条、曲线信息而不是文本。

我想在不提供任何开始和结束文本的情况下从 PDF 中的矩形获取文本。

https://drive.google.com/file/d/1wCvik7VbEvDwbT-mapgXc8fwlq7Ao3BP/view?usp=sharing

python text-extraction pdf-extraction pymupdf

2020-02-13T07:58:52.097

问题标签 [pymupdf]

Reference