问题标签 [pymupdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
924 浏览

python-3.x - PyMuPDF 如何删除注释?

我正在使用 PyMuPDF 并尝试遍历字符串列表并在拍摄图像并移动到下一个字符串之前突出显示它们。

下面的代码可以满足我的需要,但注释在每个循环之后仍然存在,我想在拍摄图像后删除它们。
下面的示例图像显示“命令”一词突出显示,但前面的字符串“图像”和“文件名”仍然突出显示,因为我会将数百个这样的图像编译成报告,我想让它更清楚地突出。

有没有类似 page.remove(highlight) 的东西?

pymupdf 输出示例图像

0 投票
1 回答
914 浏览

python - 使用 pymupdf 在 Pdf 中用图像名称替换图像

使用 PyMuPDF,我想从 pdf 中提取所有图像并单独保存它们,并将 pdf 中的所有图像替换为相同图像位置的图像名称并保存为另一个文档。我可以使用以下代码保存所有图像。

但不确定如何将它们全部替换为 pdf 中存储的图像名称。如果有人可以在这里帮助我,将不胜感激。

0 投票
1 回答
371 浏览

python - 相对于当前旋转将 PDF 旋转 90 度

我使用以下代码将使用 fitz 的 PDF 旋转了 90 度:

但是,如果我想再次将文档旋转 90 度,我必须设置page.setRotation为 180 而不是 90。我怀疑这与 3x3 矩阵值的操作方式有关,但不确定这是否正确或如何直接操作值。

如何相对于当前旋转旋转文档,以便如果文档先前旋转了 90,我只需将旋转值设置为 90 而不是 180 进行第二次旋转?

0 投票
2 回答
2423 浏览

python - 是否有任何解决方案可以将无边界表格从 PDF 提取为 CSV?

样品表

这是我的 pdf 文件中的示例图像,有 75 页。

0 投票
1 回答
280 浏览

python - 可以使用 PyMuPDF 在 PDF 中逐块搜索文本吗?

输出

(x0, y0, x1, y1, "块中的行", block_type, block_no)

我的主要目标是:

在 PDF 中搜索文本并将其突出显示 必须搜索的文本在一页中可以存在 n 次。使用tp.search(text,hit_max=1)它可能会限制出现的最大数量,但它不会解决问题,因为它会选择文本的第一次出现,但对我来说可能是第二次或第三次出现很重要。

我的想法是:

getTextBlocks 提取上面提到的文本,使用这个信息特别是 block_no,我想page.searchFor为那个特定的块执行功能。从逻辑上讲它应该是可能的,但实际上我需要关于如何做到这一点的帮助。

对于实现主要目标的任何投入,我将不胜感激。

谢谢

0 投票
3 回答
724 浏览

python - PyMuPDF insertTextBox 插入文本但以镜像形式

上面的代码以镜像形式在 pdf 中添加文本为什么我不知道我尝试了 insertText 方法,使用 inserTextbox 变形属性但仍然没有找到解决方案。您可以在此处查看输出OutPut PDF 文件图像

有什么帮助吗?提前致谢

0 投票
1 回答
387 浏览

python - 为什么保存我用 fitz 打开的文件会改变它的大小?

我查找了使用 fitz 打开文件对文件的作用,但没有找到任何东西。代码很简单:

我不明白为什么这会改变 pdf 的大小。使用我尝试的文件,它的大小从 829kb 变为 854kb。

我对此并不满意,因为我想更改大量文件的特征,但在确定这不会在任何意义上改变它们,但我想改变的特征之前,我无法做到这一点。

顺便说一句,我想要的只是将 pdf 的内部标题设置为与其文件的显示名称相同。

我可以假设在第二个示例中我不会丢失一些信息吗?为什么在第一个示例中打开并保存文件时大小会发生变化?

0 投票
1 回答
197 浏览

python - 尝试获取字数时此 PDF 有什么问题

我正在尝试编写一个 python 应用程序来计算 PDF 的字数。

不过,我在这个 PDF 上遇到了一些奇怪的事情。

当我从 PDF 中提取文本时,它显示为某种二进制/符号垃圾。

我已经尝试过PyPDF2PyMuPDFlibs 相同的结果。

我怎样才能对像这样的 PDF 进行字数统计?

这是文件。 https://www.dropbox.com/s/hdgqd70l0kcayvo/mhr.pdf?dl=0

0 投票
2 回答
3135 浏览

python - 使用 PyMuPDF 将文本添加到 pdf

我正在尝试通过打开 PDF、添加文本框并保存来向 pdf 添加文本。当我运行代码时,什么也没有发生。在桌面上,它显示文件已更新,但没有显示任何文本。

这是代码:

0 投票
1 回答
1061 浏览

python - 使用 Fitz 在带注释的文本周围裁剪 pdf 区域

问题陈述

  1. 阅读pdf并搜索单词。
  2. 如果找到单词,请注释该单词并在 pdf 文件中的注释文本周围裁剪区域。
  3. 每个裁剪的图像应该只有一个注释。

库和版本

  1. python-3.6
  2. 菲茨-0.0.1.dev2
  3. pymupdf-1.17.5

面临的问题

对于前两次迭代,注释是完美的,并且裁剪也可以按预期完美地工作。但是通过从文本实例中迭代搜索词的下一次出现,然后在该区域周围裁剪,并且搜索词的注释失败。找不到此问题的解决方案。

结果图像

  1. 所有裁剪图像的预期输出 在此处输入图像描述

  2. 裁剪时的假大小写

在此处输入图像描述