问题标签 [pymupdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
268 浏览

python - python中PDF中的额外svg和文本

我需要在 python 中将文本和 svgs 合并到 pdf 中。我试过 PyDF2,PyPDF4,tika 没用。我尝试使用 pymupdf 但出现以下错误。有人可以帮我吗。我正在使用 python 3.8,pycharm。pymupdf 所需的所有模块都已经存在。

错误 :

0 投票
1 回答
181 浏览

python - 如何避免在 python 中从 PDF 文件中提取小图像元素?

我正在尝试从此 PDF 文件中提取所有图像:https ://s3.us-west-2.amazonaws.com/secure.notion-static.com/566ca0ca-393d-47d4-b3fc-eb3632777bf8/example.pdf ?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAT73L2G45O3KS52Y5%2F20210610%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20210610T041944Z&X-Amz-Expires=86400&X-Amz-Signature=2f8a2d08647e4953448f890adb56d11b1d01e21b941ca3dc9f9b5ab3caa7f018&X-Amz -SignedHeaders=host&response-content-disposition=文件名%20%3D%22example.pdf%22

使用 fitz(PyMuPDF 模块) 使用以下代码提取所有图像,以及小图标。我必须避免提取这些图标并仅获取图像。

0 投票
0 回答
75 浏览

python - pyqt多线程:为什么工作线程阻塞主线程

当我尝试加载一些size>10MB 或pages>300 的 .pdf 时,

worker线程会阻塞主线程,不知道怎么QThread正确使用,

我希望每次pixmap_page_load运行时,信号都会发送到主线程。

这是最少的代码,需要模块pymupdfpdf文件

0 投票
0 回答
33 浏览

python - 在 pymupdf 中,annot.rect 值是在创建还是保存时?

pymupdf 用户的快速问题。

我创建了一个基于 pymupdf 的工具,用于标记 .pdf 试卷。用户对 .pdf 文件应用一个勾形注释框。此过程的一部分是删除 DataFrame 中的重复注释。这是为了确保删除任何在空间上巧合的“复制和粘贴”。

我有一个用户系统地在通过眼睛或 pymupdf 脚本计数时返回的论文上有不同数量的滴答声。我可以从annot.rect返回的列表中看到确实存在重复项,这些重复项随后将在 DataFrame 中删除。但是,在这种情况下,对于这个用户,很明显没有注释重叠。

那么,pymupdf 是否返回注释创建点或保存位置的坐标。我有相互矛盾的证据……任何见解都会有很大帮助。

干杯,戴夫

0 投票
0 回答
146 浏览

python - 使用 PyMuPDF 进行图像替换

我正在使用 PyMuPDF 替换图像。但是当我有一个映射到它们的 bbox 坐标的图像字典时,只有第一页中的图像被替换。如何让字典中的所有图像都被替换?这是我的代码:'bbval' 是这样的字典: bbval dictionary

0 投票
1 回答
148 浏览

python - 如何在 PyQt5 中使用 pymupdf 读取 pdf 文件?

我想通过 pilihfile 按钮打开 pdf 文件,然后将其名称显示在 textEdit 上,并使用 pymupdf 在 textEdit_2 上显示其 pdf 内容。但我收到错误说无法打开('D:/Kuliah/KRIP.pdf', 'PDF Files (*.pdf)'):参数无效。我不知道如何解决它。

0 投票
1 回答
223 浏览

python - python - 忽略页眉和页脚读取pdf

我有一个使用 pymupdf 使用以下语法阅读的 pdf 文件。

有没有办法在阅读时忽略页眉和页脚?

我尝试将 pdf 转换为 docx,因为它更容易删除标题,但是当我将其转换为 docx 时,我正在处理的 pdf 文件正在重新格式化。

pymupdf 在阅读过程中有什么办法吗?

0 投票
1 回答
81 浏览

python - 将关键字与 PDF 文件进行比较

这是通过文件夹名称调用文件并提取数据的程序。现在我想将数据与我在下面程序中使用的关键字进行比较。但它给了我:

我想删除错误并将关键字与提取的数据进行比较。我在这个程序中使用了 PyMuPDF 库。

0 投票
0 回答
100 浏览

python - 使用 PyMyPDF 通过 Python 从简历中提取 GPA

我们为简单的简历制作了一个程序,它逐行提取字符串中的整个简历信息。现在我想从那个字符串中提取 GPA。我尝试了很多,但对此一无所知。因此,如果有人可以配置这将对我非常有帮助。

此代码的输出是

在这个输出中,我们可以将技能与关键字进行比较并给出分数。现在我们的主要重点是从字符串中提取 GPA 值并在比较后给出分数,就像我们之前对技能所做的那样

0 投票
1 回答
258 浏览

python - 为什么 PyMupdf Document 显示错误,没有属性 'new_page',当它是 PDF 时?

我正在对 PDF 进行注释,我想更改它的颜色。我被引导到这个有用的链接:https ://pymupdf.readthedocs.io/en/latest/faq.html#how-to-add-and-modify-annotations

我使用了链接中的代码:

我一直遇到这个错误:

AttributeError: 'Document' object has no attribute 'new_page'

我已经在其他一些 PDF 上尝试过,但它似乎不起作用,但是,PYMUDF 文档https://pymupdf.readthedocs.io/en/latest/document.html#Document.new_page描述它应该有这个属性.

如何启用要插入的新页面以消除此错误?