0

我将使用 STASM 和 OpenCV 的 SVM 以视频剪辑为源构建一个情绪识别系统(基于 Paul Ekman 的情绪模型 = 快乐、悲伤、愤怒、恐惧、惊讶、厌恶、中性)。

但是,我不知道应该为训练阶段本身提供什么样的数据。我知道我们必须向MatSVM 输入一个类型,但我想知道矩阵中应该包含什么。

例如,假设我们有从 STASM 获得的地标点。每个地标点都有自己的[x,y]坐标。此外,每个面部表情都有许多标志点,假设我们覆盖了 17 个标志点。这意味着在知道一个面部表情的这 17 个标志点之后,我们会将这些数据包装到矩阵数据类型的第一行并将其输入 SVM,然后对于其他表情的过程是相同的(我们也应该标记它们,但是我们先不要关注那部分)。

我的问题:

  1. 为系统提供地标点的 x 和 y 坐标是否足够?

直觉上我认为这还不够。我们应该得到某种从中性表达到本文中描述的“峰值”表达的位移。例如,我们可以得到每个地标点从中性状态到快乐状态的欧几里得距离,并将坐标的位移输入矩阵,而不是坐标。

但我觉得这个想法仍然缺少一些东西。

  1. 如果每个表情都与中性状态进行比较,那么机器如何知道某人的面部是否处于中性状态?

我很困惑,因为我不知道中性表达比较应该基于什么,因为其他表达实际上使用中性表达作为比较。

4

0 回答 0