问题标签 [pymupdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1259 浏览

python - Python PyMuPDF 循环下一页

我正在使用以下代码打开 PDF 文件并转换为图像文件作为输出。现在,我试图弄清楚如何循环下一页并将其转换为相同的输出文件。任何帮助深表感谢!

0 投票
1 回答
183 浏览

python - 为什么页面的 MuPDF MediaBox 比包含的图像小?

对于这个示例 PDF,我这样做了:

这使:

我希望 (1) 和 (2) 相同,尽管我不明白为什么有两种方法可以得到相同的结果。

我不明白的是为什么(3)中图像的价值比它所在的页面大得多。有人可以解释一下吗?

0 投票
0 回答
1176 浏览

python - Python 3.7 中 fitz.Document 的解码问题

0 投票
1 回答
301 浏览

python - 如何使用python将pdf页面倒置?

我正在尝试使用 python 翻转 pdf 页面。我尝试了多个库,例如 PyPdf2、PyMuPDF 和 pdfminer。有关于如何旋转页面的文档,但这不是我想要的。我找到的最接近的解决方案是在 PyMuPDF 文档页面之一上,但它是一个示例,并没有提供关于它是如何实现的代码。您可以在此处找到示例页面:https ://pymupdf.readthedocs.io/en/latest/matrix.html#flipping 。同样的任务是翻转 pdf 页面而不是旋转它们。

提前谢谢您的回答。

0 投票
1 回答
1487 浏览

python - 如何使用 Python 突出显示 pdf 中的特定行/文本

我是 python 新手,一直在做一个项目来制作一个带有突出显示文本的新 pdf。我正在使用 pymupdf 获取文本并存储文本、字体大小和文本索引。

我找到了一种突出显示文本的方法,但它会搜索并突出显示所有出现的字符串(文本)。

我需要一种方法来突出显示任何特定的行/单词(不是全部)或者如何存储每行的矩形坐标。

用法的一个示例是,如果有一个名为“摘要”的标题,并且在该标题的文本中出现“摘要”,我只想突出显示标题(或段落中的文本)。

0 投票
0 回答
94 浏览

python - 如何保存具有不同亮点、PyMuPDF、Python 的单个 pdf 的不同版本?

我有一个 pdf 文档,为简单起见,我想制作同一个 pdf 的两个(许多)不同的编辑版本。

例如,在其中一个 pdf 中,我希望突出显示 pdf 中的所有“and”,而在第二个中,我希望突出显示所有“the”。

我尝试使用 PyMuPDF 这样做:

这里第一个文件 (output_and.pdf) 具有预期的内容,但在第二个文件 (output_the.pdf) 中突出显示了“and”和“the”。有没有办法取消突出显示“和”,然后以这样的方式保存或保存文件,这样下次我保存 pdf 时它不会影响。

0 投票
1 回答
35 浏览

python - 有没有办法在使用 Python 解析 PDF 文件时识别被划掉的单词?

我正在使用 PyMuPDF 解析 PDF 文件(顺便说一句很棒的库!)

但我需要识别被划掉的单词。

有没有办法做到这一点?

0 投票
1 回答
781 浏览

python - 使用 python PyMuPDF (fitz) 遍历行并检查其长度,如果符合条件则添加句点

尝试从 PyMuPDF 库中遍历页面的每一行以检查句子的长度,如果少于 10 个单词,那么我想添加一个句号。伪代码将是:

真实代码如下:

当我添加另一个 for 循环时,例如 for line in page:

我收到一个错误说页面不可迭代。我还有其他方法可以做到这一点吗?

谢谢

0 投票
2 回答
2423 浏览

python - Convert PDF file to multipage image

I'm trying to convert a multipage PDF file to image with PyMuPDF:

But I need to convert all the pages of the PDF file to a single image in multi-page tiff, when I give the page argument a page range, it just takes one page, does anyone know how I can do it?

0 投票
1 回答
233 浏览

python - Python 抓取非结构化 PDF

我们从向我们提供 PDF 发行说明的供应商处获得双周软件版本。笔记中有很多不相关的东西,但最终我们需要手动将这些笔记中的信息复制/粘贴到 Confluence 页面中。

理想情况下,我希望能够编写一个 python 应用程序,以便能够从 PDF 中抓取某些部分。结构大致如下(粗体部分是我要提取的部分):

  1. 介绍
  2. 新功能
    2.1。新功能 1
    说明
    2.2新功能 2
    说明

    .
    .
    2.x)新功能 X 说明
  3. 带有缺陷描述的缺陷修复
    描述

在这种情况下,文档的其余部分无关紧要

我已经设法让它导入文件并提取(全部)文本,但我真的不知道如何只提取第 2 节的标题,然后对于第 3 节,只取表格并用熊猫重新格式化. 关于如何解决这个问题的任何建议?

(现在我下一步该怎么做?)