0

我正在将科学 (STEM) 图像解释为其组成部分并添加语义。这些图像是数字化的、无噪声的,或者是二元的(单色)或者有少量的颜色。我希望 Java 库/方法将图像划分为空格分隔的组件并识别(分类)结果段。一个典型的图像是:

在此处输入图像描述

我希望提取的段包括数字和其他字符(一些旋转)以及图中的星号。[我将使用其他方法来提取几何组件 - 例如条形图)。我还希望库能够识别相同的段(例如 6 个零字符、5 个小数点)。我已经成功地将 Tesseract 用于字符,但许多段可能不属于 Unicode 字符集(例如,专门创建的符号)。

更新:我开了一个赏金。我只对库感兴趣,而不是对算法的建议,因为我已经写了一个原型。如果该功能是更大系统的一部分(例如,我认为 JBIG2 具有此功能),请说明入口点在哪里。

注意:“原生数字”意味着创建的图像没有噪音,干净的线条不像 - 比如说 - 扫描文档。

4

1 回答 1

2

我只知道openCV。有了这个,您可以分析您的图像,如:

  • 二值化它(如果你有几种颜色或灰度)
  • 在 Mat 对象中收集 blob
  • 获取这些垫子的位置以获得正确的标签(应该是每个字母的垫子)
  • 然后将您的算法应用于那些垫子
于 2013-08-11T09:46:08.000 回答