问题标签 [pymupdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
951 浏览

python - 使用 Fitz 在 Python 中替换 pdf 文件中的文本

有没有人尝试过使用 PyMuPDF Library 的 Fitz 替换 PDF 文件中的文本?

我尝试使用下面的代码,但不确定我是否接近结果,或者无法使用此库:

0 投票
0 回答
12 浏览

python - 将名称与前面的地理信息相关联(使用 Python 3 从 PDF 中提取文本)

我想使用 Python 3 从 PDF 中提取文本,其中列出了以下格式的信息:

加州

洛杉矶

史密斯,乔 C.

比利,鲍勃 M。

斯图尔特,凯蒂 X。

我尝试同时使用 PyPDF2 和 pymupdf(1.18.9 版)从 PDF 中提取文本,并且成功识别出城市名称和人名。但是,我正在努力通过 PDF 的自然阅读顺序来关联两个字符串列表(用 reg.ex 标识)。

理想情况下,我希望有一个如下表:

CA 洛杉矶史密斯,乔 C.

CA 洛杉矶比利,鲍勃 M.

CA 洛杉矶斯图尔特,凯蒂 X。

并且能够将其导出为 csv。非常感谢!

0 投票
1 回答
249 浏览

python - 如何在 Python 中删除 PDF 文本提取中的换行符?

我使用 PyMuPDF 来获取 PDF 中的文本,这是我的代码

输出应该是

但事实证明

“KRIPTOGRAFI”一词后有一个换行符。有什么办法可以去掉吗?

0 投票
0 回答
120 浏览

python - 无法使用 pymupdf 搜索某些 pdf

我编写了一个小程序来观察一个文件夹,一旦将 .pdf 文件放入该文件夹中,它将在 .pdf 中搜索关键字并输出一个新的 .txt(列出页码)和一个新的 pdf 文件,该文件只包含包含以下内容的页面关键字。

它适用于大多数 .pdf,但有些表现出奇怪的行为。似乎有时它只搜索第一页而没有其他内容。如果需要,我可以提供其中一个 pdf 的链接。

这是我的代码:

一些pdf上出现以下错误(我假设pymupdf无法正确读取文件并且只搜索第0页):

该词在pdf中多次出现,但找不到。

0 投票
2 回答
1183 浏览

python - fitz.open() 在 for 循环中不起作用(FITZ、PYTHON、PYMUPDF)

尝试使用 PyMuPDF 中的 fitz 遍历目录('PDFS')中的文件时,我遇到了困难。问题是,当我只是在做 document =“somepdf.pdf”时,代码就可以工作,但是一旦我插入一个 for 循环并尝试以这种方式访问​​文件,就会出现这个错误:

文件名、流、文件类型、矩形、宽度、高度、字体大小 运行时错误:无法打开 sample.pdf:没有这样的文件或目录

这是代码:

感谢您的帮助!

0 投票
1 回答
178 浏览

python - 使用 pymupdf 进行切片

我想使用 Python 和 pymupdf 在 pdf 文档中标记几个关键字。

代码如下(来源:原始代码):

但是,文本仅在一页上被标记。我尝试按照 pymupdf (文档)文档中的描述更改代码,以便对所有页面进行切片。

不幸的是,它仍然只在一页上标记关键字。我需要更改什么,以便在所有页面上标记关键字?

0 投票
0 回答
118 浏览

python - 我的 python exe 文件不能在共享磁盘中工作,但可以在 jupyter notebook 中工作

我编写了一个 python 脚本来读取当前文件夹(共享磁盘内)中的 pdfs 文件以查找特定编号,然后在其他文件夹(同一共享磁盘)中搜索该编号。如果匹配,使用 PyMuPDF 我将两个文件合并到一个新文件中。之后,将该文件移动到其他文件夹。问题是我需要在我的工作笔记本中,在共享磁盘中进行。(该磁盘中没有安装python)。我只在笔记本的 c:\user 中安装了 Anaconda。因此,使用 jupyter notebook 脚本运行完美,但是当我将其转换为 exe 文件(使用 pyinstaller)时,它不再工作,在我的 C 盘中也没有共享磁盘。我需要一个 exe 文件来在共享磁盘中执行该脚本。

我的脚本如下


谢谢!

0 投票
0 回答
8 浏览

pymupdf - 呈现的页面不显示对字段的更新

pymupdf 的新手。

在 page1 的表单上打开具有预设值“00000”的文本字段的现有 pdf。

我在 page1 上循环浏览我的小部件,找到有问题的字段,更改值,更新字段它们创建页面的像素图,但显示的值是旧的而不是新的。

那么我做错了什么?

0 投票
1 回答
296 浏览

python - PyMuPDF Pixmap tobytes() 返回属性错误

我正在关注文档并使用最新的 PyMuPDF (1.18.13)。但是Pixmap.tobytes()对我不起作用:

文档示例: 在此处输入图像描述

这里可能是什么问题?

0 投票
1 回答
273 浏览

python - 如何使用pymupdf从较大的pdf中的选定页面中提取文本?

我知道有很多库可以从 PDF 中提取文本。具体来说,我在使用 pymupdf 时遇到了一些困难。从这里的文档:https ://pymupdf.readthedocs.io/en/latest/app4.html#sequencetypes 我希望用来select()选择一个页面间隔,然后使用getText()这是我正在使用的文档linear_regression.pdf

但我得到这个错误:

所以我假设select()没有被正确使用非常感谢