我正在使用 Tesseract 从大量页面中提取文本和格式,如下所示:
(我的原始图像是 1200 DPI;我已降低到 600 DPI 并重新编码以保持文件大小正常。)
当本书使用块引用时(例如占据本页左栏大部分的引用),最显着的区别是字体大小略小。
问题是当我在我的 hocr 配置文件中将 hocr_font_info 设置为 1 时,xml 输出会产生如下的单词标签:
<span class='ocrx_word' id='word_1_131' title='bbox 561 3188 981 3278; x_wconf 89; x_font Century_Schoolbook_L_Medium; x_fsize 7' lang='fra' dir='ltr'>dération</span>
x_fsize 属性通常在小行上为 6,在较大行上为 7,但 Tesseract 有时会将值 7 分配给较小的行 - 并且会为整行分配值,所以我不能依赖相邻的单词解决问题。(在某些情况下,我可以使用相邻行,但并非总是如此。有时我会处理一个孤立的文本行,所以如果可能的话,我真的需要精确的大小。)
在我的字体大小中获得更多粒度的最佳方法是什么?在紧要关头,如果我有每个字符的确切高度和宽度,我可能会过得去,尽管带有小数位的字体大小(例如“x_fsize='6.62'”)会更容易使用。