0

我对光学字符识别软件的一些术语有疑问,特别是 Tesseract OCR 引擎。

我正在阅读一篇关于 Tesseract OCR 引擎的文章,它经常提到一个叫做Fixed pitch text的东西,我不完全确定这意味着什么。我假设音高是一行文本占据的空间,但这在我正在阅读的文章的上下文中并没有真正的意义。

这是使用此措辞的文章中的一句话:

Blob 被组织成文本行,并针对固定间距或比例文本分析行和区域。

我在网上找了一些关于这个的定义,但是大多数关于 OCR 的文章只是使用它而没有任何解释。我猜这意味着这是一个非常简单/常见的术语。

如果有人关心的话,我正在阅读的文章名为“An Overview of the Tesseract OCR Engine”,作者是 Ray Smith。

4

1 回答 1

1

当第一次尝试在图像中查找文本时,Tesseract 将识别文本可能出现的区域,其中包含 blob。一旦确定了可能存在文本的区域,Tesseract 就会查看这些区域是否包含“固定间距”。基本上,这意味着它试图弄清楚它之前发现的区域是否真的包含文本。固定间距是用于创建特定字母或单词的不同类型的向量,Tesseract 会寻找那些来分析它在图像中看到的字母或单词。

于 2020-03-18T04:38:09.517 回答