假设我有一些过去 5 年的数据,并且我已经根据这些数据训练了我的分类器(任何决策树、支持向量机等),即给定适当的输入特征数据和正确的输出标签。
现在,当我必须进行预测(预测输出)时,我可以提供当年的输入特征数据,分类器将预测正确的输出标签。
到目前为止,一切都很好。
但是假设如果我没有当前的输入特征数据,我该如何仅根据过去的数据进行预测?
例如选举预测,即哪个政党将从每个选区中获胜。在这个我们有很多过去的数据,但没有当前的输入特征数据,那么如何去做呢?
假设我有一些过去 5 年的数据,并且我已经根据这些数据训练了我的分类器(任何决策树、支持向量机等),即给定适当的输入特征数据和正确的输出标签。
现在,当我必须进行预测(预测输出)时,我可以提供当年的输入特征数据,分类器将预测正确的输出标签。
到目前为止,一切都很好。
但是假设如果我没有当前的输入特征数据,我该如何仅根据过去的数据进行预测?
例如选举预测,即哪个政党将从每个选区中获胜。在这个我们有很多过去的数据,但没有当前的输入特征数据,那么如何去做呢?
Bogatron 的评论是正确的答案。如果您不使用输入功能并要求返回标签,则分类器是错误的方法。根据过去的数据对未来进行建模通常是通过回归来完成的。最简单的方法可能是最小二乘法,它允许您选择一个简单的模型(想想曲线拟合),您可以从中选择一个数据点并计算预测值。
我认为他的意思是分类。在分类时,您通常将现有数据分成两组:测试和训练。您对训练数据进行所有训练,当您认为完成时,您可以使用测试集进行验证。如果集合上的表现非常不同,那么您要么训练过度,要么根本无法将问题归类为这种类型。如果您的数据很少,您可以尝试k-fold策略。
What you are trying to do is probably called "time series forecasting" and your input can then be a window over the past predictions (or past data if still inside the current window position).
您只能根据训练集中的内容(旧数据或当前数据)进行预测。获得对新样本进行泛化的准确预测的最佳方法是确保您不会过度拟合您的模型。如果您觉得您的模型不能准确反映您必须预测的最新数据中的内容,那么您可能需要获取其他功能。