7

我已经从许多孤立字符的图像中提取了特征(例如梯度、相邻像素权重和几何属性。我如何使用 HMM 作为根据这些数据训练的分类器?我读到的所有关于 HMM 的文献都指状态和状态转换,但我可以'不要将它连接到功能和类标签。JAHMM主页上的示例与我的问题无关。我需要使用HMM不是因为它比其他方法更好地解决这个问题,而是因为项目主题的限制。

这个问题有一个在线识别的答案,但我想要离线和更详细的答案

编辑:我将每个字符划分为具有固定数量正方形的网格。现在我计划对每个网格块进行特征提取,从而通过从左到右和从上到下移动来获得每个样本的特征序列。

  1. 这是否代表了 HMM 的足够“序列”,即 HMM 是否能够猜测数据的时间变化,即使字符不是从左到右和从上到下绘制的?如果不建议另一种方式。

  2. 我应该提供很多功能还是从几个开始?我如何知道 HMM 是否性能不佳或功能是否不好?我正在使用 JAHMM。

  3. 提取笔画特征难,不能与网格特征逻辑结合?(因为 HMM 期望某个随机过程生成的序列)

4

1 回答 1

2

我经常看到用于此类识别任务的神经网络,此处此处此处。由于简单的谷歌搜索在 OCR 中出现了如此多的神经网络点击,我假设您已开始使用 HMM(项目限制,对吗?)无论如何,这些链接可以提供一些关于网格化图像和获取图像特征的见解.

您将网格转换为一系列观察的方法是合理的。在这种情况下,请确保不要混淆观察和状态。你从一个块中提取的特征应该被收集到一个观察中,即一个特征向量。(与语音识别相比,您的块的特征向量类似于与语音音素相关的特征向量。)您实际上并没有太多关于底层状态的信息。这是 HMM 的隐藏方面,训练过程应告知模型一个特征向量跟随另一个特征向量的可能性(即转换概率)。

由于这是一个离线过程,因此不必关心实际绘制字符的时间方面。出于您的任务的目的,您使用从左到右、从上到下的块序列对观察序列施加了时间顺序。这应该可以正常工作。

至于 HMM 性能:选择一个合理的显着特征向量。在语音识别中,特征向量的维数可能很高(>10)。(这也是引用的文献可以提供帮助的地方。)留出一定百分比的训练数据,以便您可以正确测试模型。首先,训练模型,然后在训练数据集上评估模型。你的角色分类效果如何?如果效果不佳,请重新评估特征向量。如果它在测试数据上表现良好,则通过在保留的测试数据上运行分类器来测试分类器的通用性。

至于状态的数量,我将从启发式导出的数字开始。假设您的角色图像被缩放和标准化,可能有 40%(?)的块被占用?这是我的粗略猜测,因为没有提供源图像。对于 8x8 网格,这意味着占用了 25 个块。然后我们可以从 25 个状态开始——但这可能是幼稚的:空块可以传达信息(意味着状态的数量可能会增加),但在类似的状态下可能会观察到一些特征集(意味着状态的数量可能会减少。)如果它如果是我,我可能会选择 20 个州。话虽如此:注意不要混淆特征和状态。您的特征向量是在特定状态下观察到的事物的表示。

祝你好运。

于 2013-11-14T23:15:38.273 回答