问题标签 [pymupdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 无法使用 MuPDF 安装 PyMuPDF - Mac 10.13.4 上的 python
早晨
首先,让我说我是一个 python 新手——所以我希望这个问题不会是愚蠢的。
我正在运行 Mac 10.13.4 (Beta) 并试图让 PyMuPDF 正常工作。
根据https://github.com/rk700/PyMuPDF/:
- 我已经下载了 PyMuPDF 和 MuPDF。
- 我跑了
brew install mupdf-tools
- 我跑了
export ARCHFLAGS='-arch x86_64'
此时我不确定是否需要通过运行来构建 MuPDF
(根据https://mupdf.com/docs/building.html)或直接访问
如果我尝试使用 make 构建 mupdf,则会收到以下错误:
如果我运行 setup.py 安装,那么在尝试导入 Fitz 时会出错。我知道有一条指令说 include_dirs 和 library_dirs 应该更新,但它们引用的目录似乎不存在(在我下载的源文件中除外)。
我很感激这完全取决于我是一个 python 菜鸟——任何指针都将不胜感激。
python - Python PyMuPDF Fitz insertImage
一直在尝试使用 PyMuPDF / Fitz 将图像放入 PDF 文件中,我在互联网上的任何地方都得到相同的语法,但是当我使用它时,我遇到了运行时错误。
我已经尝试了一些不同的变体,有像素图和没有像素图,有覆盖值集,有没有。PDF文件存在并且可以用Adobe Acrobat Reader打开,并且图像文件存在——我试过PNG和JPG。
提前感谢您的任何帮助。
python - PyMuPDF 提取纯文本的问题
我想使用PyMuPDF阅读 PDF 文件。我只需要纯文本(无需提取颜色、字体、表格等信息)。
我试过以下
哪个不起作用,所以我尝试了
这又不起作用。
然后我从 PyMuPDF 的一位作者那里找到了一篇很棒的博客,其中包含有关按照从文件中读取文本的顺序提取文本的详细代码。但是每次我使用不同的 PDF 运行此代码时,我都会得到KeyError: 'lines'
(代码中的第 81 行)或KeyError: "bbox"
(代码中的第 60 行)。
我不能在这里发布 PDF,因为它们是机密的,我很感激这里有有用的信息。但是有什么方法可以让我完成 PyMuPDF 要做的最简单的任务:从 PDF 中提取纯文本,无序或其他(我不太介意)?
python - 使用 pymupdf 在 PDF 中查找带撇号的单词
我正在使用 fitz 包中的 PyMuPDF 来搜索和突出显示 PDF 中的单词。我如何找到一个带有撇号的单词?在我的示例代码中, text_instances 将为空。如果您搜索 'her' 或 "'",则 text_instances 不会为空。不确定连接的两个字符串有什么问题。
这是我的示例代码:
python - 如何解决“No module named 'frontend'”错误消息?
我已经安装了 PymuPDF/fitz,因为我试图从 PDF 文件中提取图像。但是,在运行下面的代码时,我看到No module named 'frontend'
.
我已经搜索过,但没有关于此类错误的单一报告。我已经安装了 PyMuPDF、muPDF 和 fitz 模块
这是完整的错误:
python - 使用 wxPython + pymupdf 抗锯齿渲染的 PDF
我是 wxPython 和 pymupdf 的新手,并且看过 wxPython + pymupdf 的示例。它们可以工作,但是 pdf 页面(渲染)的质量很差。我确信这可以改进。基本上我正在寻找一种抗锯齿解决方案。但是我不知道如何也无法在网上找到样本。请有人提供使用 wxpython + pymupdf 显示 PDF 的示例。
这是我尝试过的:
还有这个:
python - 如何从特定的 pdf 页面而不是整个文档访问文本
我正在尝试从一些 pdf 文档中提取一些东西。尽管我在 pdfminer 和 pymupdf 上投入最多,但我一直在使用各种工具。我从 pdfminer 开始,但在无法解决一个特定问题后开始测试 pymupdf - 也就是说,当我的 pdf 文档有许多页面时,我想选择是否处理每个特定页面。但是,我在这两个库中遇到的问题是,当我尝试从一个特定页面(或另一个页面)检索文本时,返回的文本是文档中的所有文本。
这是一个包含 57 页的文档的链接。
我这里重点讲一下使用pymupdf的情况
这是一些代码
我在这里打破以确认我从一页且只有一页中提取了文本 - 但是当我检查文本时,我发现它几乎包含整个文档中的所有文本(全部 57 页)
所以我很好奇,尽管 pdf 文件中出现了页面边界 - 也许它们不存在,所以我使用 pageCount 属性/属性/方法来确定页面是否存在 - 它们似乎是
当我遍历所有页面时,描述输出有点困难,每个页面并没有完全包含所有页面的所有内容,但它几乎包含所有内容。我通过使用以下代码确定了这一点
这是输出 - 为了完整性
因此,关于第 29 页的内容存在偏差,并且从页面中检索到的文本长度存在差异,但在它周围寻找似乎有很大的重叠,例如
但
总而言之——图书馆似乎理解现有的页面边界,但为单个页面检索的文本几乎是文档中的所有文本。由于生成了一个好的 ToC - 我想使用它和从该 ToC 提供的页码来识别我想要进一步解析和提取数据的特定页面。
我会观察到我在尝试使用 pdfminer 时遇到了类似的问题。我可以检索所有文本,而不仅仅是来自特定指定页面的文本。
python - Unable to install PyMuPDF on Mac 10.14.5
After running pip install pymupdf
in my conda environment, i get an error when trying to import fitz
ModuleNotFoundError: No module named 'fitz'
Inside my terminal i ran pip list | grep PyMuPDF
to verify installation and it returns PyMuPDF 1.14.17
, so im lost as to what the issue is.
Any help on getting this working would be really appreciated.
python-3.x - 需要帮助保存 PyMuPDF
这是一个基本脚本,应该在 PDF 的第一页上插入水印图像并以新名称保存。我可以对 pdfrw 中的相同文件执行相同的操作,但我坚持使用 PyMuPDF(我更愿意使用...)。py 文件与 pdf 和 png 位于同一文件夹中。
我收到此错误消息:
提前感谢您的帮助。
python - Tkinter Canvas PDF Viewer Next Page Render 仅在调试时有效
我正在尝试使用 PyMuPDF 库在 Python/Tkinter 中编写 PDF 查看器。我可以成功打开文档并呈现第一页,但是当尝试通过删除 Canvas 图像并从新页面创建新图像来移动到下一页时,我得到一个空白屏幕。第一页被删除,但第二页不显示。
但是,当我通过 VS Code 运行程序并在函数中设置调试断点nxtBtn_Click
并逐行执行时,当函数完成时,第二页将按预期出现在窗口中。
我试过了,但得到相同的结果:
- 用于
canvas.update_idletasks()
强制重新绘制画布。 - 将 delete 步骤和 create_image 步骤拆分为 ondown 和 onup 事件。
- 使用传递给的回调函数
window.after_idle
- 使用新图像更新现有图像
canvas.itemconfig(canvasPdf, image = tkimg)
我在 Windows 10 上运行 Python 3.7.1。