0

背景

我确实有一个图像数据集(类似于ImageNet),每张图像都有一个“带有拼写错误的描述”。我想在这个人身上运行一些深度卷积神经网络,但我需要先生成“标签”。那么,问题来了:

问题

如何从“有错别字的描述”中生成类别的“标签”?

技术信息

该数据集有大约 1300 万张图像,带有相应的(有效的)“描述”和可选的“错别字”。“描述”的一些示例如下:

第一个例子 第二个例子

想法

我正在考虑通过以下方式解决问题。

  1. 修正错别字:
    • 运行拼写检查以识别拼写错误;
    • 找到可以解决它的更好的词,通过
      • 查看数据集中的其他描述,或
      • 检查图像并手动纠正错字;
  2. 生成最终标签:
    • 在句子嵌入(将句子映射到ℝᴺ的函数)上运行聚类算法(例如 k-means)或
    • 使用最经常出现的词。
4

1 回答 1

1

这里有一些想法:

  1. 您应该清楚地运行拼写检查,否则您的标签会更加嘈杂。选项:

    • 检查信息检索课程并实施检查,谷歌讲座3-容错-检索-handout-6-per.pdf(我敢打赌这不是要走的路)如果你想要频率,谷歌“自然语言语料库数据”

    • 使用一些代码http://norvig.com/spell-correct.html(多种语言)

  2. 关于标签(我猜你想要它自动,否则有半自动方法):

    • 使用http://viget.com/extend/tagging-text-automatically我从未使用过它们,但它应该可以正常工作
    • 我不建议使用 k 方法,因为您确实知道组数
    • 使用最常见的词可能适用于少数示例(例如您在此处显示的示例),但它可能不适用于许多情况。

我希望这会很有用

于 2014-08-13T02:46:05.087 回答