0

我想应用 attention-ocr 来检测汽车号码板上的所有数字。我已经阅读了您在 github 上的 attention_ocr README.md(https://github.com/tensorflow/models/tree/master/research/attention_ocr),以及我应该如何使用自己的图像数据来训练模型与 StackOverFlow 页面。(https://stackoverflow.com/a/44461910/743658)但是,我没有得到任何关于如何存储图片的注释或标签的信息,或者这个问题的格式。对于对象检测模型,我能够使用 LabelImg 制作我的数据集并将其转换为 csv 文件,最后制作 .tfrecord 文件。我想制作 FSNS 数据集格式的 .tfrecord 文件。

你能给我你的建议吗?

4

2 回答 2

0

请重新阅读提到的答案,它有一节解释如何存储注释。它存储在三个特征image/text中,image/classimage/unpadded_class。该image/text字段用于可视化,一些模型支持未填充的序列和使用image/unpadded_class,而默认版本依赖于用空字符填充的文本具有相同的长度存储在特征中image/class。这是存储文本注释的摘录:

char_ids_padded, char_ids_unpadded = encode_utf8_string(
   text, charset, length, null_char_id)
example = tf.train.Example(features=tf.train.Features(
  feature={
    'image/class': _int64_feature(char_ids_padded),
    'image/unpadded_class': _int64_feature(char_ids_unpadded),
    'image/text': _bytes_feature(text)
    ...
  }
))
于 2019-05-09T16:51:08.477 回答
0

如果您使用过 tensorflow 对象检测,那么该方法对您来说应该容易得多。

  1. 您可以使用 labelImg 或任何其他注释工具创建注释文件(.csv 格式)。

但是,在将其转换为 tensorflow 格式(.tfrecord)之前,您应该牢记注释格式。(本例中为 FSNS 格式)

格式为:files text xmin ymin xmax ymax

因此,虽然注释不要太在意类(就像你在对象检测中所做的那样!一些随机名称就足够了。)

  1. 将其转换为 .tfrecords。

  2. 最后 labelMap 是您已注释的字符列表。

希望能帮助到你 !

于 2019-12-13T16:03:24.840 回答