我有一些包含用户名及其各自性别的数据。例如,我的数据列表中的条目可能如下所示:{User: 'abc123', Gender: 'M'}
对于每个用户名,我还会收到一袋文本、图像和附加到每个用户名的位置,尽管用户不必至少附加一个文本、一个图像和一个位置。
对于每个数据源,我可以将它们转换为特征向量,然后将其输入分类器。然后我可以通过 10 倍交叉验证来确认分类器是否有效。
我想结合所有分类器的一些输出,以便我可以将它们输入元分类器,以提高准确性。
问题在于,由于数据不完整,我不能简单地将每个数据源生成的所有向量组合起来,并将它们输入一个分类器。一些用户可能没有图像数据,或者其他用户可能没有位置数据。
我目前的想法是使用每个分类器为每个用户获取一些类别概率集,例如从每个数据源的分类器中获取[男性:0.75,女性:0.25],将所有类别的值相乘,并使用最高的值作为程序的预测类别。
因此,如果每个数据源(文本、图像、位置)都有 1 个分类器,那么我总共有 3 个分类器。即使某些用户缺少一两个数据源,我仍然可以获得这些用户的类别概率集。
scikit-learn 是否有任何算法可以输出用户属于某种性别的概率权重,而不仅仅是对它们进行分类?
还是有其他满足我需求的算法?
感谢您浏览我的文字墙!