问题标签 [pymupdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 pymupdf 在 Pdf 中用图像名称替换图像
使用 PyMuPDF,我想从 pdf 中提取所有图像并单独保存它们,并将 pdf 中的所有图像替换为相同图像位置的图像名称并保存为另一个文档。我可以使用以下代码保存所有图像。
但不确定如何将它们全部替换为 pdf 中存储的图像名称。如果有人可以在这里帮助我,将不胜感激。
python - 相对于当前旋转将 PDF 旋转 90 度
我使用以下代码将使用 fitz 的 PDF 旋转了 90 度:
但是,如果我想再次将文档旋转 90 度,我必须设置page.setRotation
为 180 而不是 90。我怀疑这与 3x3 矩阵值的操作方式有关,但不确定这是否正确或如何直接操作值。
如何相对于当前旋转旋转文档,以便如果文档先前旋转了 90,我只需将旋转值设置为 90 而不是 180 进行第二次旋转?
python - 是否有任何解决方案可以将无边界表格从 PDF 提取为 CSV?
这是我的 pdf 文件中的示例图像,有 75 页。
python - 可以使用 PyMuPDF 在 PDF 中逐块搜索文本吗?
输出
(x0, y0, x1, y1, "块中的行", block_type, block_no)
我的主要目标是:
在 PDF 中搜索文本并将其突出显示 必须搜索的文本在一页中可以存在 n 次。使用tp.search(text,hit_max=1)
它可能会限制出现的最大数量,但它不会解决问题,因为它会选择文本的第一次出现,但对我来说可能是第二次或第三次出现很重要。
我的想法是:
getTextBlocks 提取上面提到的文本,使用这个信息特别是 block_no,我想page.searchFor
为那个特定的块执行功能。从逻辑上讲它应该是可能的,但实际上我需要关于如何做到这一点的帮助。
对于实现主要目标的任何投入,我将不胜感激。
谢谢
python - PyMuPDF insertTextBox 插入文本但以镜像形式
上面的代码以镜像形式在 pdf 中添加文本为什么我不知道我尝试了 insertText 方法,使用 inserTextbox 变形属性但仍然没有找到解决方案。您可以在此处查看输出OutPut PDF 文件图像
有什么帮助吗?提前致谢
python - 为什么保存我用 fitz 打开的文件会改变它的大小?
我查找了使用 fitz 打开文件对文件的作用,但没有找到任何东西。代码很简单:
我不明白为什么这会改变 pdf 的大小。使用我尝试的文件,它的大小从 829kb 变为 854kb。
我对此并不满意,因为我想更改大量文件的特征,但在确定这不会在任何意义上改变它们,但我想改变的特征之前,我无法做到这一点。
顺便说一句,我想要的只是将 pdf 的内部标题设置为与其文件的显示名称相同。
我可以假设在第二个示例中我不会丢失一些信息吗?为什么在第一个示例中打开并保存文件时大小会发生变化?
python - 尝试获取字数时此 PDF 有什么问题
我正在尝试编写一个 python 应用程序来计算 PDF 的字数。
不过,我在这个 PDF 上遇到了一些奇怪的事情。
当我从 PDF 中提取文本时,它显示为某种二进制/符号垃圾。
我已经尝试过PyPDF2
和PyMuPDF
libs 相同的结果。
我怎样才能对像这样的 PDF 进行字数统计?
这是文件。 https://www.dropbox.com/s/hdgqd70l0kcayvo/mhr.pdf?dl=0
python - 使用 PyMuPDF 将文本添加到 pdf
我正在尝试通过打开 PDF、添加文本框并保存来向 pdf 添加文本。当我运行代码时,什么也没有发生。在桌面上,它显示文件已更新,但没有显示任何文本。
这是代码: