我正在尝试在 Ubuntu 上使用 pytesseract 和 tesseract 命令行将扫描的页面转换为文本。结果明显不同(pytesseract 比 tesseract 命令行执行得更好),我无法理解为什么。我查看了参数的默认值并尝试更改 tesseract 命令行中的一些参数值(如 psm ),但我无法获得与 pytesseract 相同的结果。由于 pytesseract 中缺乏适当的文档,我无法弄清楚使用了哪些参数的默认值。
这是我的 pytesseract 代码
print(pytesseract.image_to_string(Image.open('test.tiff'))