问题标签 [pymupdf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

140 问题

0 投票

2 回答

1259 浏览

python - Python PyMuPDF 循环下一页

我正在使用以下代码打开 PDF 文件并转换为图像文件作为输出。现在，我试图弄清楚如何循环下一页并将其转换为相同的输出文件。任何帮助深表感谢！

python pymupdf

2020-08-19T06:04:01.470

0 投票

1 回答

183 浏览

python - 为什么页面的 MuPDF MediaBox 比包含的图像小？

对于这个示例 PDF，我这样做了：

这使：

我希望 (1) 和 (2) 相同，尽管我不明白为什么有两种方法可以得到相同的结果。

我不明白的是为什么（3）中图像的价值比它所在的页面大得多。有人可以解释一下吗？

python pymupdf

2020-08-20T09:38:14.953

0 投票

0 回答

1176 浏览

python - Python 3.7 中 fitz.Document 的解码问题

python pymupdf text-decoding

2020-08-21T08:58:03.097

0 投票

1 回答

301 浏览

python - 如何使用python将pdf页面倒置？

我正在尝试使用 python 翻转 pdf 页面。我尝试了多个库，例如 PyPdf2、PyMuPDF 和 pdfminer。有关于如何旋转页面的文档，但这不是我想要的。我找到的最接近的解决方案是在 PyMuPDF 文档页面之一上，但它是一个示例，并没有提供关于它是如何实现的代码。您可以在此处找到示例页面：https ://pymupdf.readthedocs.io/en/latest/matrix.html#flipping 。同样的任务是翻转 pdf 页面而不是旋转它们。

提前谢谢您的回答。

python pdf pypdf2 pdfminer pymupdf

2020-08-23T10:09:51.243

0 投票

1 回答

1487 浏览

python - 如何使用 Python 突出显示 pdf 中的特定行/文本

我是 python 新手，一直在做一个项目来制作一个带有突出显示文本的新 pdf。我正在使用 pymupdf 获取文本并存储文本、字体大小和文本索引。

我找到了一种突出显示文本的方法，但它会搜索并突出显示所有出现的字符串（文本）。

我需要一种方法来突出显示任何特定的行/单词（不是全部）或者如何存储每行的矩形坐标。

用法的一个示例是，如果有一个名为“摘要”的标题，并且在该标题的文本中出现“摘要”，我只想突出显示标题（或段落中的文本）。

python string pdf text pymupdf

2020-08-25T09:41:16.340

0 投票

0 回答

94 浏览

python - 如何保存具有不同亮点、PyMuPDF、Python 的单个 pdf 的不同版本？

我有一个 pdf 文档，为简单起见，我想制作同一个 pdf 的两个（许多）不同的编辑版本。

例如，在其中一个 pdf 中，我希望突出显示 pdf 中的所有“and”，而在第二个中，我希望突出显示所有“the”。

我尝试使用 PyMuPDF 这样做：

这里第一个文件 (output_and.pdf) 具有预期的内容，但在第二个文件 (output_the.pdf) 中突出显示了“and”和“the”。有没有办法取消突出显示“和”，然后以这样的方式保存或保存文件，这样下次我保存 pdf 时它不会影响。

python pdf pymupdf

2020-08-25T17:19:00.103

0 投票

1 回答

35 浏览

python - 有没有办法在使用 Python 解析 PDF 文件时识别被划掉的单词？

我正在使用 PyMuPDF 解析 PDF 文件（顺便说一句很棒的库！）

但我需要识别被划掉的单词。

有没有办法做到这一点？

python parsing pdf pymupdf

2020-08-26T08:08:29.987

0 投票

1 回答

781 浏览

python - 使用 python PyMuPDF (fitz) 遍历行并检查其长度，如果符合条件则添加句点

尝试从 PyMuPDF 库中遍历页面的每一行以检查句子的长度，如果少于 10 个单词，那么我想添加一个句号。伪代码将是：

真实代码如下：

当我添加另一个 for 循环时，例如 for line in page:

我收到一个错误说页面不可迭代。我还有其他方法可以做到这一点吗？

谢谢

python pymupdf

user11464178

2020-08-27T20:06:34.290

0 投票

2 回答

2423 浏览

python - Convert PDF file to multipage image

I'm trying to convert a multipage PDF file to image with PyMuPDF:

But I need to convert all the pages of the PDF file to a single image in multi-page tiff, when I give the page argument a page range, it just takes one page, does anyone know how I can do it?

python image pdf pymupdf

2020-08-30T20:38:18.100

0 投票

1 回答

233 浏览

python - Python 抓取非结构化 PDF

我们从向我们提供 PDF 发行说明的供应商处获得双周软件版本。笔记中有很多不相关的东西，但最终我们需要手动将这些笔记中的信息复制/粘贴到 Confluence 页面中。

理想情况下，我希望能够编写一个 python 应用程序，以便能够从 PDF 中抓取某些部分。结构大致如下（粗体部分是我要提取的部分）：

介绍
新功能
2.1。新功能 1
说明
2.2新功能 2
说明
。
.
.
2.x)新功能 X 说明
带有缺陷描述的缺陷修复
描述
表

在这种情况下，文档的其余部分无关紧要

我已经设法让它导入文件并提取（全部）文本，但我真的不知道如何只提取第 2 节的标题，然后对于第 3 节，只取表格并用熊猫重新格式化. 关于如何解决这个问题的任何建议？

（现在我下一步该怎么做？）

python python-3.x pandas pymupdf

2020-08-31T12:30:32.743

1 2 3 4 5 6 7 8 9 10

问题标签 [pymupdf]

Reference