在正常的 2 类或多类分类问题中,我们可以使用任何著名的机器学习算法,如 Naive Bayes 或 SVM 来训练和测试模型。我的问题是,我收到了标签变量格式为“20% 雨,80% 干燥”或“30% 多云,70% 雨”等格式的天气数据。我应该如何解决这个问题?我需要以某种方式将问题转化为回归吗?在这种情况下,如果数据中有三个标签(雨、干、多云),那么将百分比信息转换为连续值的正确方法是什么? 谢谢你的时间
问问题
583 次
2 回答
1
假设表达式“20% 下雨,80% 干”和“30% 多云,70% 雨”表示概率,那么这些类是互斥的,我们可以忽略可能的序数关系(例如“干 > 多云 > 雨") 其中,多分类逻辑回归等模型可能适合这些值,就好像它们被分组或复制一样。
我想也可以采用其他特别的程序,例如,这将最大限度地减少 Kullback-Leibler 分歧。
于 2011-02-21T02:44:20.557 回答
1
我会推荐一个具有三个输出标签 Rain、Dry、Cloud 的神经网络。
如果您有标签为“20% 雨”的数据,那么实例的权重将为 0.2。如果没有“rain”标签应该包含“false”。其他方法是使用相同转换约定的 3 个不同的回归分类器。我认为回归会更好。
神经网络将是不错的选择,因为它可以同时进行所有三个回归/分类,并且它们可以相互影响。此外,训练算法很简单。
于 2011-02-20T19:00:59.267 回答