问题标签 [pymupdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 Fitz 在 Python 中替换 pdf 文件中的文本
有没有人尝试过使用 PyMuPDF Library 的 Fitz 替换 PDF 文件中的文本?
我尝试使用下面的代码,但不确定我是否接近结果,或者无法使用此库:
python - 将名称与前面的地理信息相关联(使用 Python 3 从 PDF 中提取文本)
我想使用 Python 3 从 PDF 中提取文本,其中列出了以下格式的信息:
加州
洛杉矶
史密斯,乔 C.
比利,鲍勃 M。
斯图尔特,凯蒂 X。
我尝试同时使用 PyPDF2 和 pymupdf(1.18.9 版)从 PDF 中提取文本,并且成功识别出城市名称和人名。但是,我正在努力通过 PDF 的自然阅读顺序来关联两个字符串列表(用 reg.ex 标识)。
理想情况下,我希望有一个如下表:
CA 洛杉矶史密斯,乔 C.
CA 洛杉矶比利,鲍勃 M.
CA 洛杉矶斯图尔特,凯蒂 X。
并且能够将其导出为 csv。非常感谢!
python - 如何在 Python 中删除 PDF 文本提取中的换行符?
我使用 PyMuPDF 来获取 PDF 中的文本,这是我的代码
输出应该是
但事实证明
“KRIPTOGRAFI”一词后有一个换行符。有什么办法可以去掉吗?
python - 无法使用 pymupdf 搜索某些 pdf
我编写了一个小程序来观察一个文件夹,一旦将 .pdf 文件放入该文件夹中,它将在 .pdf 中搜索关键字并输出一个新的 .txt(列出页码)和一个新的 pdf 文件,该文件只包含包含以下内容的页面关键字。
它适用于大多数 .pdf,但有些表现出奇怪的行为。似乎有时它只搜索第一页而没有其他内容。如果需要,我可以提供其中一个 pdf 的链接。
这是我的代码:
一些pdf上出现以下错误(我假设pymupdf无法正确读取文件并且只搜索第0页):
该词在pdf中多次出现,但找不到。
python - fitz.open() 在 for 循环中不起作用(FITZ、PYTHON、PYMUPDF)
尝试使用 PyMuPDF 中的 fitz 遍历目录('PDFS')中的文件时,我遇到了困难。问题是,当我只是在做 document =“somepdf.pdf”时,代码就可以工作,但是一旦我插入一个 for 循环并尝试以这种方式访问文件,就会出现这个错误:
文件名、流、文件类型、矩形、宽度、高度、字体大小 运行时错误:无法打开 sample.pdf:没有这样的文件或目录
这是代码:
感谢您的帮助!
python - 使用 pymupdf 进行切片
我想使用 Python 和 pymupdf 在 pdf 文档中标记几个关键字。
代码如下(来源:原始代码):
但是,文本仅在一页上被标记。我尝试按照 pymupdf (文档)文档中的描述更改代码,以便对所有页面进行切片。
不幸的是,它仍然只在一页上标记关键字。我需要更改什么,以便在所有页面上标记关键字?
python - 我的 python exe 文件不能在共享磁盘中工作,但可以在 jupyter notebook 中工作
我编写了一个 python 脚本来读取当前文件夹(共享磁盘内)中的 pdfs 文件以查找特定编号,然后在其他文件夹(同一共享磁盘)中搜索该编号。如果匹配,使用 PyMuPDF 我将两个文件合并到一个新文件中。之后,将该文件移动到其他文件夹。问题是我需要在我的工作笔记本中,在共享磁盘中进行。(该磁盘中没有安装python)。我只在笔记本的 c:\user 中安装了 Anaconda。因此,使用 jupyter notebook 脚本运行完美,但是当我将其转换为 exe 文件(使用 pyinstaller)时,它不再工作,在我的 C 盘中也没有共享磁盘。我需要一个 exe 文件来在共享磁盘中执行该脚本。
我的脚本如下
谢谢!
pymupdf - 呈现的页面不显示对字段的更新
pymupdf 的新手。
在 page1 的表单上打开具有预设值“00000”的文本字段的现有 pdf。
我在 page1 上循环浏览我的小部件,找到有问题的字段,更改值,更新字段它们创建页面的像素图,但显示的值是旧的而不是新的。
那么我做错了什么?
python - 如何使用pymupdf从较大的pdf中的选定页面中提取文本?
我知道有很多库可以从 PDF 中提取文本。具体来说,我在使用 pymupdf 时遇到了一些困难。从这里的文档:https ://pymupdf.readthedocs.io/en/latest/app4.html#sequencetypes
我希望用来select()
选择一个页面间隔,然后使用getText()
这是我正在使用的文档linear_regression.pdf
但我得到这个错误:
所以我假设select()
没有被正确使用非常感谢