假设我有一个文档的黑白图像,只使用了 2 或 3 种字体。3 个中的一个用于标题,另一个是小字体(或至少,非常简单)。例如,一小段文本可能是:
Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.
Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.
我不需要一个可以告诉我“Best Soup”使用带有斜体/等的特殊花哨字体的大型 OCR 系统。我只需要一个可以告诉我“Best Soup”的格式与“tap water”完全不同的系统,“Best Soup”和“Sandwich”可能使用相同的格式,“Sandwich”比“tap”更大/更漂亮水。”
如果相关,我将使用 Tesseract 进行实际的 OCR 和边界框检测 (http://www.mail-archive.com/tesseract-ocr@googlegroups.com/msg02157.html)。
有什么东西可以用来做这个简单的格式分类吗?
编辑:
有什么东西可以做到这一点而不会花费我一条胳膊和一条腿吗?