我正在开发一个关于 python 的项目,我必须在其中找到能够在播放列表中取得成功的功能。我有一些变量,如歌曲数量、专辑数量、艺术家数量、流派数量、情绪数量以及类型+情绪数量。歌曲、专辑、艺术家等多达数千,而心情/流派的数量为 0、1、2 或 3,流派+心情的数量在 0-6 之间。因变量是每个播放列表的流/用户。
我无法解释某些模型。当我使用多元线性回归时,类型、情绪和类型+情绪数量的系数最大(大约 11、-15 和 -3),而其他较大范围变量的系数在千分之一(5e-3, 3e-3 等)。
然后,如果我在相同的特征上运行一个随机森林模型(我可以用变量范围做这个吗?)最重要的特征是歌曲、专辑和艺术家的数量,其值在 0.26-0.33 之间流派/情绪特征在千分之一。
我怎么知道其中哪一项是正确的解释?