我正在将科学 (STEM) 图像解释为其组成部分并添加语义。这些图像是数字化的、无噪声的,或者是二元的(单色)或者有少量的颜色。我希望 Java 库/方法将图像划分为空格分隔的组件并识别(分类)结果段。一个典型的图像是:
我希望提取的段包括数字和其他字符(一些旋转)以及图中的星号。[我将使用其他方法来提取几何组件 - 例如条形图)。我还希望库能够识别相同的段(例如 6 个零字符、5 个小数点)。我已经成功地将 Tesseract 用于字符,但许多段可能不属于 Unicode 字符集(例如,专门创建的符号)。
更新:我开了一个赏金。我只对库感兴趣,而不是对算法的建议,因为我已经写了一个原型。如果该功能是更大系统的一部分(例如,我认为 JBIG2 具有此功能),请说明入口点在哪里。
注意:“原生数字”意味着创建的图像没有噪音,干净的线条不像 - 比如说 - 扫描文档。