我正在使用回归模型从一组 120 个属性中预测数值。其中 7 个属性是分类的,但最大的类别有大约 90,000 个唯一值。我正在使用大约 100 万行数据进行训练。
但是,当我查看数据源摘要中的分类属性时,我可以看到这些属性最多显示 5000 个唯一值。这是 AWS 机器学习正在实施的某种限制,它会影响我的模型的准确性,还是只是摘要显示的限制?
此外,我突出显示了最常见的类别结果,其中空白显示为最常见的值。(这可能是因为我的 CSV 包含引号,因此是有效值)AWS ML 是否忽略分类元素的空白条目?或者我应该用 UUID/随机字符串填充缺失的分类值,以便一个共同的共享“空白”值不会扭曲预测。
我知道一些 ML 模型会在输入新的(以前在训练中未见过的)分类值进行预测时保留一个备用神经元。AWS机器学习就是这种情况吗?
我是 ML 新手,如果我的问题很愚蠢,或者我的方法/假设是错误的,我很抱歉。在询问之前,我确实扫描了 AWS 文档。
谢谢。