0

我想使用 tesseract 将扫描的 PDF 文档读入 R。一般来说,这已经很好地工作了,但是当文档具有表结构时我会遇到问题。经过一段时间的研究,我发现有一个参数可以设置页面分割方法(PSM)。实际上,默认值是为书页设计的,因此更改此参数应该会提高性能。

https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html#page-segmentation-method

现在我想设置这个 PSM 参数,但我不知道在哪里可以找到它。大多数说明和教程都是针对 Python 的,但对于我的项目,我使用 R。我已经读过您可以将命名列表传递给 options 参数,但我找不到合适的方法。

您的帮助将不胜感激,我不知道该去哪里找。

提前致谢!

4

0 回答 0