3

假设我有一个文档的黑白图像,只使用了 2 或 3 种字体。3 个中的一个用于标题,另一个是小字体(或至少,非常简单)。例如,一小段文本可能是:

Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.

Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.

我不需要一个可以告诉我“Best Soup”使用带有斜体/等的特殊花哨字体的大型 OCR 系统。我只需要一个可以告诉我“Best Soup”的格式与“tap water”完全不同的系统,“Best Soup”和“Sandwich”可能使用相同的格式,“Sandwich”比“tap”更大/更漂亮水。”

如果相关,我将使用 Tesseract 进行实际的 OCR 和边界框检测 (http://www.mail-archive.com/tesseract-ocr@googlegroups.com/msg02157.html)。

有什么东西可以用来做这个简单的格式分类吗?

编辑:

有什么东西可以做到这一点而不会花费我一条胳膊和一条腿吗?

4

1 回答 1

1

我不确定 tesseract 是否可以解决您描述的任务,但我相信好的 ocr 引擎应该检测字体样式。例如,ABBYY OCR SDK不仅可以识别粗体/斜体字体样式,还可以定义正确的字体以在输出中使用。

根据您的描述,我猜您正在尝试确定文档样式层次结构,例如标题级别等。ABBYY FineReader Engine 提供了此功能,您没有参与基于字体大小和样式的文本用途例程。此外,它提供了最好的 ocr 质量并且可以免费试用。如果您计划商业软件,请考虑尝试一下。我在 ABBYY 工作,如有必要,可以为您提供我们的 OCR SDK 的更多信息。

此致。

于 2011-08-03T13:13:15.890 回答