问题标签 [ocrmypdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
230 浏览

python - 在 Python 中的 Visual Stdio Code 中导入 ocrmypdf

我想导入ocrmypdf.

我已经使用pip install --upgrade --user ocrmypdf

但是当我尝试在 VSC 中导入时:

它发现了错误:

0 投票
1 回答
58 浏览

python - Camelot 无法提取整个表

我使用 Camelot 从 PDF 中提取表格信息,我使用 ocrmypdf(500dpi) 将其从扫描转换为可搜索。

Camelot 似乎能够识别表并提取表中的大部分数据,但似乎无法提取下半部分。本质上,它看到了表格的上半部分,但似乎无法将文本与下半部分分开。

这是相关 PDF 中的表格:

PDF 中的表格

但是当我使用 Camelot 的可视化调试方法时,我要求它向我展示它将提取的单词,它似乎将表格的底部识别为一个巨大的块

表的可视化调试

您可以在此处提供的有关改进 Camelots“视力”的任何指导都会有所帮助。

0 投票
0 回答
63 浏览

python - 可靠地检测 Spyder IDE

如何可靠地检测脚本/模块是否正在 Spyder IDE 中运行?

我在 spyder IDE 中运行 ocrmypdf 时遇到了问题。它适用于 cmd 和 anaconda 提示符。在 spyder IDE、Windows 7 和 10、各种机器、各种新/旧 anaconda 设置中运行时会出错。(有关错误的详细信息,请参阅下面的存根和内联注释。) ocrmypdf 的开发人员建议这是由于多处理在 spyder IDE 中不起作用(Python 的多处理在 Spyder IDE 中不起作用)。我想知道是否有可靠的方法来检测 ocrmypdf 或任何脚本/模块是否正在 Spyder IDE 中运行。

基本上,这是重复:检测 Python 代码在哪里运行(例如,在 Spyder 解释器、IDLE 和 cmd 中)

我再次问这个问题,因为这个问题最初是在 2013 年提出的,并且接受的答案 - 检查 spyder 在 os.environment 中设置的环境变量 - 是可行的,但有误报的风险。

如果有更聪明的方法解决这个问题,请告诉我!

0 投票
2 回答
193 浏览

python-3.x - 如何使用 gnu 并行编写批处理命令?

我正在尝试使用名为 ocrmypdf 的包进行一些批处理。

这是一个可以处理1个pdf文件的命令

ocrmypdf input.pdf output.pdf

这是一个可以处理我们运行它的目录中的所有pdf文件的命令。

parallel --tag -j 2 ocrmypdf '{}' 'output/{}' ::: *.pdf

现在,我实际上想对目录中的所有 pdf 文件运行此命令。这个参数多了一个。

ocrmypdf --sidecar txt/input.txt input.pdf out/output.pdf

我之前尝试像这样重写并行命令:

parallel --tag -j 2 ocrmypdf --sidecar txt/{}.txt {}.pdf out/{}.pdf ::: *.pdf

但我得到了错误:

ocrmypdf: error: the following arguments are required: output_pdf

有人可以帮我理解我做错了什么吗?谢谢!

0 投票
0 回答
50 浏览

python - ocrmypdf FileNotFoundError

我在 Windows 上编写了一个脚本,以使用现有 pdf 中的 ocr 创建一个 pdf。

我的代码:

那是我的简单脚本,输出是:

谁能帮我?

0 投票
1 回答
58 浏览

python - ocrmypdf - 找不到源pdf?

我想使用 ocrmypdf 将一些 pdf 文件从图片转换为可读的 pdf -

使用以下简单代码进行了尝试:(invoice.pdf 当然可以在与 python-script 相同的路径中使用,并且应该生成 output.pdf)

但不幸的是,我收到此错误消息:

为什么他不能在执行 py 文件的同一文件夹中找到该文件?

0 投票
0 回答
12 浏览

python - OCRmyPDF 的 hOCR 输出

我正在运行 OCRmyPDF 从扫描的 PDF 创建可搜索的 PDF,它对我来说工作得很好。我只想将扫描的 PDF 的每一页的 hOCR 输出也保存在我的本地目录中。我怎样才能做到这一点?