0

假设我想预测一辆二手车的价格。我有一组 50 个功能,其中许多分类/数字变量有时可能不可用/为空,但假设 50 个功能中有 20 个始终可用。一种方法是仅使用这 20 个来创建价格预测模型。但是,我知道(来自领域专业知识)使用其他 30 个“稀疏”变量可以大大提高预测能力,只要它们可用。是否有一类更适合此任务的通用预测模型,其中每个预测可能有不同的特征子集可用?还有其他方法可以考虑吗?

例如,我应该尝试其中的任何一个吗?

  1. 使用某种方法填充空值,无论是简单的方法还是基于预测不可用特征的可用特征的子模型。
  2. 假设大多数数据可以分为 5-10 个不同的可用特征子集。我是否应该创建 5-10 个单独的模型来适应每个可用特征的子集,然后动态选择要预测的模型?

感觉应该有比上述两种更好/更有效的方法,如果有人能指出我正确的方向,我将不胜感激。

4

0 回答 0