3

为了扫描文档(白色和黑色文本)并将它们用于 OCR 转换(以获得最佳效果),扫描仪的最佳设置是什么?PDF 和 TIFF 格式的标准设置和规范是什么?

4

4 回答 4

4

对于 OCR,最佳扫描设置是:

  • 300 dpi 分辨率用于常规文本,400 dpi 分辨率用于特别小的字体(小字体)
  • 文本为黑白,小字体为灰度,图片为彩色
  • TIFF 格式。Group4 用于黑白(非常小的文件大小)。如果需要颜色,请使用未压缩(非常大的文件大小)。

一些 OCR 技术可能有特殊的偏好,这可能会有一点帮助,但它们通常是次要的。

于 2013-09-05T00:54:54.110 回答
3

出于 OCR 目的,我会以 300DPI、黑白或灰度以及未压缩的 TIFF 或 PNG 格式扫描文档。

于 2013-09-04T21:39:26.323 回答
1

虽然 300DPI 是“完美”输入的最佳选择,但如果您正在使用不完美的输入(例如来自打字机或点阵打印机),那么高分辨率实际上会使 tesseract 失效。在这种情况下,最好使用较低的分辨率来隐藏瑕疵。例如,使用点阵打印机时,我在 150dpi 上得到的结果明显好于 300dpi。

于 2016-01-11T18:22:20.730 回答
0

如果你想要一个一般性的答案,300 DPI 是好的。最佳 OCR 结果通常适用于黑白图像,如果您的图像质量较低,您可以通过应用图像处理来改善它。

此外,如果您要保存扫描的图像,然后将其提供给 OCR 引擎,请不要使用 JPEG 等有损压缩。请注意,有无损 JPEG 压缩,但通常不受支持。

于 2016-01-12T08:17:35.203 回答