问题标签 [pymupdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2450 浏览

python - 使用 Python 从 PDF 中提取高分辨率图像

我已经设法使用以下代码从几个 PDF 页面中提取图像,但分辨率非常低。有没有办法调整它?

我也尝试使用此处的代码并将 if pix.n < 5" 更新为 "if pix.n - pix.alpha < 4 但这在我的情况下没有输出任何图像。

0 投票
0 回答
131 浏览

python - 从 pdf 页面捕获屏幕截图

我有一个 pdf 文档,这个页面有一个图表的图像,但是该图的图例不是图像的一部分。我正在使用 pymupdf 提取此图像,如下所示:

现在,这给了我图像(图表)。我希望能够在图像下方捕获一些高度,以便将图例也捕获为图像的一部分。这可能使用pymupdf吗?任何代码指针也会有所帮助。

0 投票
2 回答
992 浏览

python - 使用 pymupdf-page.searchFor() 选择完全匹配

下面是我的一段代码,我在其中搜索特定单词并提取它们的坐标。

根据文档page.searchFor()page.searchFor(needle, hit_max=16, quads=False, flags=None). 在页面上搜索 needle。忽略大写/小写。字符串可能包含空格。

首先,我想要精确匹配的坐标。其次,如果所选单词是“inter”,它还会从与我的任务冲突的文档中存在的单词 internalization 中提取“inter”的坐标。

有什么办法可以达到同样的效果吗?

0 投票
0 回答
675 浏览

python - 如何使用 PyMuPDF(带循环)拆分 PDF?

我想使用 PyMuPDF :我想拆分一个 pdf,对于每个拆分的文件,一个以书签名称命名的文件,只有页面

我已经成功地完成了我的文件,例如 4 个 PDF 文件用于 4 页 PDF 源....但是在几个 pdf 中,我没有一页,而是随机页数?

你能告诉我有什么问题吗?也许是因为我在循环中总是使用“doc2”?

谢谢,

阿布·伊利斯

0 投票
2 回答
434 浏览

python - 使用 python 从 PDF 获取目录

我正在尝试从 PDF 中获取目录。我为此目的使用 PyMuPDF。但仅当 PDF 包含书签时,它才会提取 ToC。否则它只会导致一个空列表。

0 投票
1 回答
1298 浏览

mupdf - PyMuPDF中的段落提取

我正在使用 PyMuPDF 从块单元的 PDF 中提取文本。在许多情况下,“块”似乎只是默认为换行符分隔的单元,而不是逻辑段落。

(example.pdf 可以在这里找到)

如果不是从 Mac 的沼泽标准预览应用程序直接复制/粘贴,我可以忍受这一点,精美地保留了段落。PyMuPDF 不做的 Preview 是什么?我的管道的其余部分几乎都锁定在 PyMuPDF 中,所以我不能真正使用 Preview 进行提取。

0 投票
1 回答
511 浏览

python-3.x - 为什么我不能从这个 pdf 中正确提取图像?[请需要帮助]

我目前正在对 pdf 文件进行 OCR。这是我的管道:

  • 我首先从 pdf 中提取图像(因为我的 pdf 包含扫描文档)并转换为 numpy 数组
  • 然后我用 tesseract 阅读

它适用于我的大部分图像,但我有几个我无法提取其中的图像。我只是举了一个例子,但我找不到(见下)包含书写部分(用于 OCR)的扫描图像。它让我发疯(它去哪里了??)。

也许您可以帮助我检索该图像并理解为什么我的方式不让我检索该图像“fantôme”?

注意:我注意到 pdf 中的那些有问题的图像是“jpx”格式。

编辑:由于图像在 pdf 中找不到,我尝试了一个可怕的技巧(等待聪明的解释 :)):在 pix 中转换整个 pdf 页面(PyMuPdf 让我们这样做),然后以不同的格式(PNG,TIFF)将 PIX 写入磁盘)。与原始 pdf 相比,质量下降太多(因此我们可以忘记使用 Tesseract 进行合理阅读)。

这是pdf示例文件(如果您有更简单的托管方式,我很好奇):https ://www.filehosting.org/file/details/906817/IB00058815877D0000000.pdf

这是我从文件中提取的两张图片(第二张应该包含 txt 而不是垃圾) 图片2:徽标 image2:这里有一个错误...

这是我提取图像的代码:

0 投票
1 回答
622 浏览

python - Python从pdf中提取图像序列

我试图使用 PyMuPDF (fitz) 从 pdf 中提取图像。我的 pdf 在一个页面中有多个图像。我在保存图像时保持正确的序列号。我看到被提取的图像没有遵循正确的顺序。有时它从底部开始提取,有时从顶部开始等等。有没有办法修改我的代码,以便提取遵循正确的顺序?下面给出的是我正在使用的代码:

下面给出的是pdf的示例页面

从 pdf 中截取的快照

0 投票
0 回答
26 浏览

python - 使用python在特定位置附加或拼接图像片段

我正在使用 python 库 PyMuPDF 从给定的 pdf 文件中提取图像。在单层中构建的图像被完美地提取。但是使用多层构建的图像将被分段提取。图像的每一部分都被视为单独的图像。我试图获取图像框的坐标并进行分析,如果一个图像的单个坐标的开始与另一个图像的结束相邻,那么它们应该在该特定位置缝合在一起。有没有办法可以实现这个目标?

0 投票
5 回答
1814 浏览

python - 无法在 alpine docker 映像上安装 PyMuPDF

我正在尝试在 apline 图像上安装 pymupdf 包,但出现以下错误