“pymupdf”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

165 浏览

python - 如何使用 PyMuPDF 库突出显示 .pdf 文件中的多个关键字

但无法突出显示 .pdf 文件中的多个关键字。这是我的代码

完成对单个关键字的搜索但收到此错误后，我正在覆盖文件

Traceback (most recent call last): File "D:/Python_Scripts/Email Analysis/PDF.py", line 19, in <module> pdf.save(f"{os.path.splitext(os.path.basename(pdfFile))[0]}.pdf", garbage=4, deflate=True, clean=True) File "D:\Python_Scripts\Email Analysis\venv\lib\site-packages\fitz\fitz.py", line 4209, in save user_pw, RuntimeError: cannot remove file 'certification-ACDA.pdf': Permission denied

2021-07-06T10:33:41.653

0 投票

0 回答

240 浏览

python-3.x - PyMuPDF 使用文档索引系统提取文本

我正在寻找一种使用 PyMUPDF 使用文档索引系统提取文本的方法。许多文档都有一个索引系统，我希望能够从文档中提取和保存每个项目（索引号下的文本）。示例文件：-

显然，我可以像这样抓取文本：

我试过get_toc()但无法让它工作，可能是因为某些文档没有目录。

我正在考虑使用正则表达式来查找这样的数字

我在想我可以得到索引号的坐标并保存它们之间的坐标。这将是最好的方法，还是有更好的更原生的方法来使用 PyMUPDF？非常感谢

编辑 - 似乎可以使用Page.get_text('words')或Page.get_textbox(react)如这里讨论的那样拉出一个文本矩形https://github.com/pymupdf/PyMuPDF-Utilities/tree/master/textbox-extraction。但是这些示例都使用 PDF 注释来构建 rect 对象。我想要做的是找到索引号的位置，例如 30.1 并使用该位置和以下索引号的位置来构建 rect 对象。

edit2 - 所以我发现Page.search_for()返回一个具有坐标的矩形对象。所以也许我可以将索引号（例如 30.1）传递给它并取回坐标。

python-3.x pdf text-extraction pymupdf

2021-07-09T18:38:26.270

0 投票

0 回答

338 浏览

python - 使用标志提取文本以使用 PyMUPDF 专注于粗体/斜体字体

我正在尝试使用 PyMUPDF 1.18.14 从 PDF 中提取粗体文本元素。我希望这能像我从flags=4针对粗体字体的文档中所理解的那样工作。

但它会打印出页面上的所有文本，而不仅仅是粗体文本。

当使用TextPage.extractDICT() (or Page.get_text(“dict”))这样的： -

该标志有效，但我无法理解它在做什么。也许在图像和文本块之间切换。

跨度

因此，您似乎必须到达才能span访问标志。

所以你可以做这样的事情，我flags=20在 span 标签上使用来获得粗体字体。

但这似乎很遥远。

所以我的问题是这是找到粗体元素的最佳方式，还是我遗漏了什么？

能够使用搜索粗体元素会很棒page.search_for()

python python-3.x search bold pymupdf

2021-07-14T17:42:54.950

0 投票

0 回答

44 浏览

python - PyMuPDF：删除出现在固定位置的所有页面中的重复对象

我正在尝试打印在 pdf 查看器软件中看起来不错的 pdf，但是当我打印 pdf 时，会在每页的固定位置打印额外的“文本”。

我已采取的步骤：

通过“打印到 pdf”选项打印 PDF，以便在软拷贝中可以看到额外的文本。
我试图以编程方式从我上面打印的软拷贝中删除这个“文本相似”对象，但 page.getImageList() 或 page.get_text() 都没有获取该对象。

有没有办法通过 PyMuPDF 访问“文本相似”对象并删除该对象？

python pdf pymupdf

2021-07-19T07:56:39.677

0 投票

0 回答

48 浏览

amazon-web-services - 如何使用 Lambda 函数将 S3 文件夹中的单独 PNG 对象转换为单个 PDF 文档

我目前在 S3 存储桶中有一个文件夹，其中包含多个不同的 PNG 图像文件，我想将它们组合成一个多页 PDF 文档。我一直在尝试使用 PyMUPDF 和 Pillow，但一直在努力创建输出 PDF 文档。在理想情况下，Lambda 函数是通过在 S3 存储桶中创建新的 PNG 文件文件夹来触发的，然后将它们转换为单个 PDF 文档。这是可能的还是有人对如何做到这一点有建议？

amazon-web-services amazon-s3 aws-lambda python-imaging-library pymupdf

2021-07-23T17:27:48.617

0 投票

1 回答

45 浏览

python - PyMuPDF - 从中心向各个方向缩放四边形

我正在搜索pdf中的文本并提取一个四边形并在其周围添加一个polygon_annot。但我想缩放polygon_annot。我怎样才能做到这一点？

下面是我的代码：

我目前正在使用 inst.transform(fitz.Matrix(2, 2)) 对其进行缩放，但这只是将值相乘。如何从四边形的中心缩放值？

python mupdf pymupdf

2021-07-28T05:51:04.433

0 投票

1 回答

1085 浏览

python-3.x - 在 MacOS Big Sur 上安装 PyMuPDF

我想在我的代码中导入 fitz。为此，我尝试使用安装 PyMuPDF

但是，此安装失败并返回此错误：

我还尝试通过 Homebrew 安装 mupdf 和 mupdf-tools。他们都无法解决这个问题。对于修复此安装错误的任何帮助，我将不胜感激！

python-3.x clang apple-m1 macos-big-sur pymupdf

2021-07-28T18:02:42.447

0 投票

0 回答

26 浏览

python - 我想将 pdf 文件的一页放在 pdf 文件的另一页上

我想将 pdf 文件的一页放在 pdf 文件的另一页上。例如：从顶部向下放置 50 毫米，向左放置 150 毫米。物体尺寸 75 x 100 毫米。

我想使用Python和PyMuPDF库来完成所有这些工作。

谢谢你，对不起我的英语。

python pymupdf

2021-07-29T12:09:03.820

0 投票

0 回答

48 浏览

python - 如何使用 lxml 解析 pymupdf 的 xml 提取？

因此，我阅读了 pdf 的每一页并将每个 xml 提取附加到一个字符串变量中。使用Page.get_text(“xml”). 文本输出由许多单元组成

我知道这些是文本周围的边界框，并且在文档中指定这些最好使用 lxml 解析。所以我尝试了下面的实现方式。

并得到以下错误：

我真的很想知道当前实现 lxml 和使用边界框从 pdf 文档中获取文本的方式。

python xml xml-parsing lxml pymupdf

2021-08-03T19:08:26.630

0 投票

1 回答

263 浏览

python - PyMuPDF ModuleNotFoundError

我成功运行了命令：

然而，两者

和import pymupdf

都输出一个 ModuleNotFoundError.

为什么python给我一个ModuleNotFoundError？

python pymupdf

2021-08-04T00:05:05.460

问题标签 [pymupdf]

Reference