我正在努力让林肯字体在 Tesseract 中工作,我得到的结果很糟糕,即使在经历了极其复杂的训练过程之后。
这就是字体的样子,所以是的,这有点棘手:
我已经仔细制作了一张训练图像,然后用它制作了一个盒子文件。训练图像在这里(25MB!)。图像为 300 DPI,具有代表性的字符很好地垂直和水平间隔。
我为训练图像制作了一个盒子文件,它工作正常。我已经使用box file editor验证了它是正确的。
我拿了这个盒子文件/tif 文件,并用它来创建训练数据。我对Tesseract 提供的30 个左右的其他示例图像/字体也做了同样的事情。
我创建了 unicharset 文件。
我创建了一个 font_properties 文件。网站上没有关于何时应该使用 fraktur 的指导。所以我已经尝试过这两种方式(林肯的fraktur):
eng.lincoln.box 0 0 0 0 1
这样(关闭):
eng.lincoln.box 0 0 0 0 0
最后,我在有和没有字典文件的情况下都试过了。当我使用字典文件时,它们是来自我的搜索引擎 Sphinx 的 wordmap,它们有大约 15K 的常用词和大约 20K 的不常用词。
在所有情况下,当我尝试对这个文件的前几行 (3MB)进行 OCR 时,质量都很糟糕。而不是得到:
United States Court of Appeals
for the Federal Circuit
我得到:
OniteiJ %tates C0urt of QppeaIs
for the jfeI1eraICircuit
为什么?