问题标签 [ocrmypdf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

7 问题

0 投票

1 回答

230 浏览

python - 在 Python 中的 Visual Stdio Code 中导入 ocrmypdf

我想导入ocrmypdf.

我已经使用pip install --upgrade --user ocrmypdf

但是当我尝试在 VSC 中导入时：

它发现了错误：

2021-06-22T06:12:08.707

0 投票

1 回答

58 浏览

python - Camelot 无法提取整个表

我使用 Camelot 从 PDF 中提取表格信息，我使用 ocrmypdf(500dpi) 将其从扫描转换为可搜索。

Camelot 似乎能够识别表并提取表中的大部分数据，但似乎无法提取下半部分。本质上，它看到了表格的上半部分，但似乎无法将文本与下半部分分开。

这是相关 PDF 中的表格：

但是当我使用 Camelot 的可视化调试方法时，我要求它向我展示它将提取的单词，它似乎将表格的底部识别为一个巨大的块

您可以在此处提供的有关改进 Camelots“视力”的任何指导都会有所帮助。

python pdf-extraction python-camelot pdftables ocrmypdf

2021-06-26T14:58:16.663

0 投票

0 回答

63 浏览

python - 可靠地检测 Spyder IDE

如何可靠地检测脚本/模块是否正在 Spyder IDE 中运行？

我在 spyder IDE 中运行 ocrmypdf 时遇到了问题。它适用于 cmd 和 anaconda 提示符。在 spyder IDE、Windows 7 和 10、各种机器、各种新/旧 anaconda 设置中运行时会出错。（有关错误的详细信息，请参阅下面的存根和内联注释。） ocrmypdf 的开发人员建议这是由于多处理在 spyder IDE 中不起作用（Python 的多处理在 Spyder IDE 中不起作用）。我想知道是否有可靠的方法来检测 ocrmypdf 或任何脚本/模块是否正在 Spyder IDE 中运行。

基本上，这是重复：检测 Python 代码在哪里运行（例如，在 Spyder 解释器、IDLE 和 cmd 中）

我再次问这个问题，因为这个问题最初是在 2013 年提出的，并且接受的答案 - 检查 spyder 在 os.environment 中设置的环境变量 - 是可行的，但有误报的风险。

如果有更聪明的方法解决这个问题，请告诉我！

python multiprocessing ide spyder ocrmypdf

2021-07-12T22:03:16.727

0 投票

2 回答

193 浏览

python-3.x - 如何使用 gnu 并行编写批处理命令？

我正在尝试使用名为 ocrmypdf 的包进行一些批处理。

这是一个可以处理1个pdf文件的命令

ocrmypdf input.pdf output.pdf

这是一个可以处理我们运行它的目录中的所有pdf文件的命令。

parallel --tag -j 2 ocrmypdf '{}' 'output/{}' ::: *.pdf

现在，我实际上想对目录中的所有 pdf 文件运行此命令。这个参数多了一个。

ocrmypdf --sidecar txt/input.txt input.pdf out/output.pdf

我之前尝试像这样重写并行命令：

parallel --tag -j 2 ocrmypdf --sidecar txt/{}.txt {}.pdf out/{}.pdf ::: *.pdf

但我得到了错误：

ocrmypdf: error: the following arguments are required: output_pdf

有人可以帮我理解我做错了什么吗？谢谢！

python-3.x bash parallel-processing gnu-parallel ocrmypdf

2021-10-14T20:45:01.267

0 投票

0 回答

50 浏览

python - ocrmypdf FileNotFoundError

我在 Windows 上编写了一个脚本，以使用现有 pdf 中的 ocr 创建一个 pdf。

我的代码：

那是我的简单脚本，输出是：

谁能帮我？

python windows ocr ocrmypdf

2022-01-07T11:00:09.690

0 投票

1 回答

58 浏览

python - ocrmypdf - 找不到源pdf？

我想使用 ocrmypdf 将一些 pdf 文件从图片转换为可读的 pdf -

使用以下简单代码进行了尝试：（invoice.pdf 当然可以在与 python-script 相同的路径中使用，并且应该生成 output.pdf）

但不幸的是，我收到此错误消息：

为什么他不能在执行 py 文件的同一文件夹中找到该文件？

python pdf ocr pdfplumber ocrmypdf

2022-01-14T22:37:34.183

0 投票

0 回答

12 浏览

python - OCRmyPDF 的 hOCR 输出

我正在运行 OCRmyPDF 从扫描的 PDF 创建可搜索的 PDF，它对我来说工作得很好。我只想将扫描的 PDF 的每一页的 hOCR 输出也保存在我的本地目录中。我怎样才能做到这一点？

python hocr ocrmypdf

2022-01-28T06:22:59.463

1 2 3 4 5 6 7 8 9 10

问题标签 [ocrmypdf]

Reference