我从事一些研究教育任务,需要具有分类面部情绪的数据集来训练分类器。例如,性别分类很简单:我可以创建csv文件,并根据性别将任何带有图像的文件标记为0或1。像这样的东西:
.../../male.jpg:1
.../../female.jpg:0
... ...
所以,我需要类似的东西,但用于面部情绪分类。我找到了带有关键点的图像数据集,所以我可以通过不同的情绪对它们进行聚类,但是如果之前手动标记它会更准确。也许有人有直接的来源,或与此类信息的链接。谢谢。
我从事一些研究教育任务,需要具有分类面部情绪的数据集来训练分类器。例如,性别分类很简单:我可以创建csv文件,并根据性别将任何带有图像的文件标记为0或1。像这样的东西:
.../../male.jpg:1
.../../female.jpg:0
... ...
所以,我需要类似的东西,但用于面部情绪分类。我找到了带有关键点的图像数据集,所以我可以通过不同的情绪对它们进行聚类,但是如果之前手动标记它会更准确。也许有人有直接的来源,或与此类信息的链接。谢谢。
这很棘手,因为即使是人类,情绪也不是唯一的特征。但是有些学者在准备您想要的监督数据时遇到了麻烦,即您可以联系下面的作者并询问他们的数据集:
“我们引入了两个大型数据库,其中包含 75 万张和 120 万张缩略图大小的图像,并标有与情感相关的关键字。” 瑞典诺尔雪平林雪平大学的 Solli 和 Lenz。
Twitter 通常是开始进行情绪分析的好地方,因为它在其高级搜索中提供了过滤正面和负面推文的可能性。
你可以在这里看看:https ://twitter.com/search-advanced
如果您想这样做,您需要编写一些代码来使用此处记录的 twitter API: https ://dev.twitter.com/docs/using-search
如果您愿意,可以在这里使用 API: https ://dev.twitter.com/console
结果以 json 形式返回。通常足以很好地开始!
您只需将每条推文与相应的情绪相关联。
如果您想要一个更“原子”的数据集,您可以根据每个单词在正类和负类中出现的频率计算它的分数,并使用 tf-idf 方法进行归一化。
请注意,如果您想构建更高级的分类器,您还需要处理“中性”情绪,而这不是 twitter 提供的。