Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
如果所有特征都具有相同的规模,我是否必须对我的数据进行规范化?例如,所有列都是特征,每一行/样本是每个特征的出现次数?如果需要归一化,我需要按特征还是按样本归一化?
不,如果您的所有功能都处于相同的规模,则您不必对数据进行规范化。
对于标准化,您要检查数据的统计分布,以确保它们具有均值 μ=0 和标准差 σ=1 的标准正态分布;其中 μ 是平均值(平均值),σ 是平均值的标准偏差。
您可以在 pandas 中通过调用.describe()您的数据并调查meanand来执行此操作std。如果碰巧某些特征具有正态分布,而另一些则没有,您可以进行我们的样本标准化(在整个数据集上)。
.describe()
mean
std