ocr - OCR 和区分 2 或 3 种字体

Question

假设我有一个文档的黑白图像，只使用了 2 或 3 种字体。3 个中的一个用于标题，另一个是小字体（或至少，非常简单）。例如，一小段文本可能是：

Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.

Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.

我不需要一个可以告诉我“Best Soup”使用带有斜体/等的特殊花哨字体的大型 OCR 系统。我只需要一个可以告诉我“Best Soup”的格式与“tap water”完全不同的系统，“Best Soup”和“Sandwich”可能使用相同的格式，“Sandwich”比“tap”更大/更漂亮水。”

如果相关，我将使用 Tesseract 进行实际的 OCR 和边界框检测 (http://www.mail-archive.com/tesseract-ocr@googlegroups.com/msg02157.html)。

有什么东西可以用来做这个简单的格式分类吗？

编辑：

有什么东西可以做到这一点而不会花费我一条胳膊和一条腿吗？

score 1 · Accepted Answer

我不确定 tesseract 是否可以解决您描述的任务，但我相信好的 ocr 引擎应该检测字体样式。例如，ABBYY OCR SDK不仅可以识别粗体/斜体字体样式，还可以定义正确的字体以在输出中使用。

根据您的描述，我猜您正在尝试确定文档样式层次结构，例如标题级别等。ABBYY FineReader Engine 提供了此功能，您没有参与基于字体大小和样式的文本用途例程。此外，它提供了最好的 ocr 质量并且可以免费试用。如果您计划商业软件，请考虑尝试一下。我在 ABBYY 工作，如有必要，可以为您提供我们的 OCR SDK 的更多信息。

此致。

ocr - OCR 和区分 2 或 3 种字体

1 回答 1

Related

Reference