问题标签 [pymupdf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

140 问题

0 投票

0 回答

951 浏览

python - 使用 Fitz 在 Python 中替换 pdf 文件中的文本

有没有人尝试过使用 PyMuPDF Library 的 Fitz 替换 PDF 文件中的文本？

我尝试使用下面的代码，但不确定我是否接近结果，或者无法使用此库：

2021-03-16T19:37:45.663

0 投票

0 回答

12 浏览

python - 将名称与前面的地理信息相关联（使用 Python 3 从 PDF 中提取文本）

我想使用 Python 3 从 PDF 中提取文本，其中列出了以下格式的信息：

加州

洛杉矶

史密斯，乔 C.

比利，鲍勃 M。

斯图尔特，凯蒂 X。

我尝试同时使用 PyPDF2 和 pymupdf（1.18.9 版）从 PDF 中提取文本，并且成功识别出城市名称和人名。但是，我正在努力通过 PDF 的自然阅读顺序来关联两个字符串列表（用 reg.ex 标识）。

理想情况下，我希望有一个如下表：

CA 洛杉矶史密斯，乔 C.

CA 洛杉矶比利，鲍勃 M.

CA 洛杉矶斯图尔特，凯蒂 X。

并且能够将其导出为 csv。非常感谢！

python arrays pypdf2 pymupdf

2021-03-18T02:08:23.270

0 投票

1 回答

249 浏览

python - 如何在 Python 中删除 PDF 文本提取中的换行符？

我使用 PyMuPDF 来获取 PDF 中的文本，这是我的代码

输出应该是

但事实证明

“KRIPTOGRAFI”一词后有一个换行符。有什么办法可以去掉吗？

python pymupdf

2021-03-23T08:29:02.640

0 投票

0 回答

120 浏览

python - 无法使用 pymupdf 搜索某些 pdf

我编写了一个小程序来观察一个文件夹，一旦将 .pdf 文件放入该文件夹中，它将在 .pdf 中搜索关键字并输出一个新的 .txt（列出页码）和一个新的 pdf 文件，该文件只包含包含以下内容的页面关键字。

它适用于大多数 .pdf，但有些表现出奇怪的行为。似乎有时它只搜索第一页而没有其他内容。如果需要，我可以提供其中一个 pdf 的链接。

这是我的代码：

一些pdf上出现以下错误（我假设pymupdf无法正确读取文件并且只搜索第0页）：

该词在pdf中多次出现，但找不到。

python pymupdf

2021-04-07T12:32:38.857

0 投票

2 回答

1183 浏览

python - fitz.open() 在 for 循环中不起作用（FITZ、PYTHON、PYMUPDF）

尝试使用 PyMuPDF 中的 fitz 遍历目录（'PDFS'）中的文件时，我遇到了困难。问题是，当我只是在做 document =“somepdf.pdf”时，代码就可以工作，但是一旦我插入一个 for 循环并尝试以这种方式访问文件，就会出现这个错误：

文件名、流、文件类型、矩形、宽度、高度、字体大小运行时错误：无法打开 sample.pdf：没有这样的文件或目录

这是代码：

感谢您的帮助！

python pdf pymupdf

2021-04-15T16:53:15.040

0 投票

1 回答

178 浏览

python - 使用 pymupdf 进行切片

我想使用 Python 和 pymupdf 在 pdf 文档中标记几个关键字。

代码如下（来源：原始代码）：

但是，文本仅在一页上被标记。我尝试按照 pymupdf (文档)文档中的描述更改代码，以便对所有页面进行切片。

不幸的是，它仍然只在一页上标记关键字。我需要更改什么，以便在所有页面上标记关键字？

python pdf pymupdf

2021-04-15T19:10:27.790

0 投票

0 回答

118 浏览

python - 我的 python exe 文件不能在共享磁盘中工作，但可以在 jupyter notebook 中工作

我编写了一个 python 脚本来读取当前文件夹（共享磁盘内）中的 pdfs 文件以查找特定编号，然后在其他文件夹（同一共享磁盘）中搜索该编号。如果匹配，使用 PyMuPDF 我将两个文件合并到一个新文件中。之后，将该文件移动到其他文件夹。问题是我需要在我的工作笔记本中，在共享磁盘中进行。（该磁盘中没有安装python）。我只在笔记本的 c:\user 中安装了 Anaconda。因此，使用 jupyter notebook 脚本运行完美，但是当我将其转换为 exe 文件（使用 pyinstaller）时，它不再工作，在我的 C 盘中也没有共享磁盘。我需要一个 exe 文件来在共享磁盘中执行该脚本。

我的脚本如下

谢谢！

python pyinstaller pymupdf

2021-04-29T22:42:58.143

0 投票

0 回答

8 浏览

pymupdf - 呈现的页面不显示对字段的更新

pymupdf 的新手。

在 page1 的表单上打开具有预设值“00000”的文本字段的现有 pdf。

我在 page1 上循环浏览我的小部件，找到有问题的字段，更改值，更新字段它们创建页面的像素图，但显示的值是旧的而不是新的。

那么我做错了什么？

pymupdf

2021-05-02T19:54:07.453

0 投票

1 回答

296 浏览

python - PyMuPDF Pixmap tobytes() 返回属性错误

我正在关注文档并使用最新的 PyMuPDF (1.18.13)。但是Pixmap.tobytes()对我不起作用：

文档示例：

这里可能是什么问题？

python pymupdf

2021-05-18T23:39:09.750

0 投票

1 回答

273 浏览

python - 如何使用pymupdf从较大的pdf中的选定页面中提取文本？

我知道有很多库可以从 PDF 中提取文本。具体来说，我在使用 pymupdf 时遇到了一些困难。从这里的文档：https ://pymupdf.readthedocs.io/en/latest/app4.html#sequencetypes 我希望用来select()选择一个页面间隔，然后使用getText()这是我正在使用的文档linear_regression.pdf

但我得到这个错误：

所以我假设select()没有被正确使用非常感谢

python pdf nlp pymupdf

2021-06-01T02:54:11.127

1 2 3 4 5 6 7 8 9 10

问题标签 [pymupdf]

加州

洛杉矶

Reference