2

关于本文中描述的 Attention-OCR 模型,我有几个问题:https ://arxiv.org/pdf/1704.03549.pdf

一些上下文

我的目标是让 Attention-OCR 了解在哪里查找和阅读扫描文档中的特定信息。它应该找到一个(在大多数情况下)前面带有描述性标签的 10 位数字。文档的布局和类型各不相同,因此我得出结论,如果不使用注意力机制,由于位置可变,任务是无法解决的......

我的第一个问题是:我是否正确地解释了模型的功能?它真的能解决我的问题吗?(1)

迄今为止的进展

我设法在我自己的数据集上运行了大约 200k 大小为 736x736 的图像的训练(相当大,虽然质量不是那么高,并且将其缩小会使文本无法识别)。不幸的是,我可以使用的机器只有一个 GPU(Nvidia Quadro M4000),时间是一个重要方面。我很快需要一个概念证明,所以我想我可以尝试用一个小得多的数据集来过度训练模型,看看它是否能够学习。

我设法用 5k 图像对其进行了过度训练——它成功地预测了每张图像。但我对我对这个结果的解释有些担忧。似乎模型没有成功记住在哪里寻找所需的信息,而只是记住了所有的字符串,而不管它们是否真的写在文档的某个地方。我的意思是,模型记住了这一切并不奇怪,但我的问题是模型必须超过什么图像数量阈值才能开始泛化并实际学习注意力?(2)

空间注意力

我想解决的另一件事是空间注意力机制。在实施模型的早期阶段,我假设论文中描述的空间注意力机制已经包含在内并且正在工作。前段时间,我在 Alexander Gorban(Attention-OCR 的开发者之一)创建的 tensorflow-repository 中偶然发现了一个问题,他说默认情况下它是禁用的。

所以我重新打开它并意识到内存使用量变得难以置信的高。张量的空间维度,包括编码坐标,从

[batch_size、宽度、高度、特征]

[batch_siz,宽度,高度,特征+宽度+高度]

这导致内存消耗增加了约 10 倍(考虑到图像的大小)-> 负担不起!导致我的第三个问题:我的任务需要空间注意力机制吗?(3)

奖金问题

是否可以在禁用坐标编码的情况下可视化静音和注意力图?

4

0 回答 0