背景
我确实有一个图像数据集(类似于ImageNet),每张图像都有一个“带有拼写错误的描述”。我想在这个人身上运行一些深度卷积神经网络,但我需要先生成“标签”。那么,问题来了:
问题
如何从“有错别字的描述”中生成类别的“标签”?
技术信息
该数据集有大约 1300 万张图像,带有相应的(有效的)“描述”和可选的“错别字”。“描述”的一些示例如下:
想法
我正在考虑通过以下方式解决问题。
- 修正错别字:
- 运行拼写检查以识别拼写错误;
- 找到可以解决它的更好的词,通过
- 查看数据集中的其他描述,或
- 检查图像并手动纠正错字;
- 生成最终标签:
- 在句子嵌入(将句子映射到ℝᴺ的函数)上运行聚类算法(例如 k-means)或
- 使用最经常出现的词。