0

我正在使用回归模型从一组 120 个属性中预测数值。其中 7 个属性是分类的,但最大的类别有大约 90,000 个唯一值。我正在使用大约 100 万行数据进行训练。

但是,当我查看数据源摘要中的分类属性时,我可以看到这些属性最多显示 5000 个唯一值。这是 AWS 机器学习正在实施的某种限制,它会影响我的模型的准确性,还是只是摘要显示的限制?

AWS 分类属性摘要

此外,我突出显示了最常见的类别结果,其中空白显示为最常见的值。(这可能是因为我的 CSV 包含引号,因此是有效值)AWS ML 是否忽略分类元素的空白条目?或者我应该用 UUID/随机字符串填充缺失的分类值,以便一个共同的共享“空白”值不会扭曲预测。

我知道一些 ML 模型会在输入新的(以前在训练中未见过的)分类值进行预测时保留一个备用神经元。AWS机器学习就是这种情况吗?

我是 ML 新手,如果我的问题很愚蠢,或者我的方法/假设是错误的,我很抱歉。在询问之前,我确实扫描了 AWS 文档。

谢谢。

4

1 回答 1

1

使用这么多类别值通常没有多大意义,并且只会使用最高值,因为其他较小的类别没有太多的预测能力。

这些类别与目标的相关性非常高,这有点可疑。但如果该模型与他们配合得很好,我就不会太担心。您可以尝试在没有它们的情况下构建模型,看看它是否有任何不同,但我不会在选择特征上付出太多努力,而更多的是在添加更多潜在特征上。

于 2017-03-18T22:42:40.793 回答